CN107273195A - 一种大数据的批处理方法、装置及计算机系统 - Google Patents
一种大数据的批处理方法、装置及计算机系统 Download PDFInfo
- Publication number
- CN107273195A CN107273195A CN201710375506.4A CN201710375506A CN107273195A CN 107273195 A CN107273195 A CN 107273195A CN 201710375506 A CN201710375506 A CN 201710375506A CN 107273195 A CN107273195 A CN 107273195A
- Authority
- CN
- China
- Prior art keywords
- data
- work implement
- partition
- execution
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/48—Indexing scheme relating to G06F9/48
- G06F2209/481—Exception handling
Abstract
本申请公开了一种大数据的批处理方法、装置及计算机系统,该方法包括:按照预定规则,将大数据进行数据分区,得到多个分区数据;将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据,使得多个分区数据可以同时被处理,同时可以避免某一节点对应的分区数据在处理过程中出现异常,对其他节点对应的分区数据的处理造成干扰的现象发生,有效的提高了大数据的批处理效率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种大数据的批处理方法、装置电子设备、计算机可读存储介质及计算机系统。
背景技术
随着数据量的大规模增长,不同的服务对数据的处理要求变得复杂多样。批处理(Batch)是目前大数据分析中对于数据处理的一种基本方法。所谓批处理也称为批处理脚本,是对某对象进行批量的处理,其目的是为了提高系统吞吐量和资源的利用率。
目前的大数据批处理,是通过将大数据分批次在同一服务器上依次进行处理,当某一批次的数据处理完成后,另一批次的数据才能被处理,使得部分数据长时间处于等待处理的状态,影响了大数据的批处理进度,从而使大数据的批处理效率较低。
因此,如何提高大数据的批处理效率是本申请需要解决的技术问题。
申请内容
本申请实施例提供一种大数据的批处理方法,用于解决现有技术中大数据的批处理效率较低的问题。
本申请实施例提供一种大数据的批处理装置,用于解决现有技术中大数据的批处理效率较低的问题。
本申请实施例提供一种电子设备,用于解决现有技术中大数据的批处理效率较低的问题。
本申请实施例提供一种计算机可读存储介质,用于解决现有技术中大数据的批处理效率较低的问题。
本申请实施例提供一种计算机系统,用于解决现有技术中大数据的批处理效率较低的问题。
本申请实施例采用下述技术方案:
第一方面,提出了一种大数据的批处理方法,所述方法包括:
按照预定规则,将大数据进行数据分区,得到多个分区数据;
将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。
第二方面,提出了一种大数据的批处理装置,所述装置包括:
分区模块,用于按照预定规则,将大数据进行数据分区,得到多个分区数据;
分配模块,用于将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。
第三方面,提出了一种电子设备,所述电子设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
按照预定规则,将大数据进行数据分区,得到多个分区数据;
将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。
第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
按照预定规则,将大数据进行数据分区,得到多个分区数据;
将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。
第五方面,提出了一种计算机系统,所述系统包括:
多个作业执行器;
上述所述的大数据的批处理装置,用于将大数据进行数据分区得到多个分区数据,并将多个分区数据分配给各个节点上的作业执行器执行。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
由于各个作业执行器为执行器服务器,因此,本申请通过将按照预定规则对大数据进行数据分区,得到多个分区数据,并将多个分区数据分配给各个节点上的作业执行器执行,可以使得多个分区数据可以同时在各个节点上的执行器服务器上执行,使得多个分区数据可以同时被处理,同时可以避免某一节点对应的作业执行器在处理分区数据的过程中出现异常,对其他节点对应作业执行器在处理分区数据造成干扰的现象发生,有效的提高了大数据的批处理效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种大数据的批处理方法的一示意性流程图;
图2为本申请实施例提供的一种大数据的批处理方法在实际应用场景下的一示意性流程图;
图3为本申请实施例提供的一种大数据的批处理装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图;
图5为本申请实施例提供的一种计算机系统的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的一种大数据的批处理方法,该方法的执行主体可以是数据处理框架或数据处理的服务器。为了便于清楚的描述本申请实施例提供的该方法,下文以方法的执行主体为数据处理的服务器为例,详细介绍本申请实施例提供的方法。
本领域技术人员可以理解,该方法的执行主体为数据处理的服务器只是一种示例性说明,并不是对本方法的执行主体的具体限定。
图1示出了本申请实施例提供的一种大数据的批处理方法的一示意性流程图,如图1所示,该方法包括:
步骤101、按照预定规则,将大数据进行数据分区,得到多个分区数据。
该预定规则可以为以文件的名称作为数据分区的规则,或以数据的标识作为数据分区的规则,或以哈希值作为数据分区的规则;所述文件的名称为数据所属的文件名称。以预定规则为以文件的名称作为数据分区的规则为例,步骤101具体实现如下事例:
例1,当同时处理多个文件(如三个文件)时,根据不同的文件名(text1、text2、text3)将分布式数据库中的大数据进行数据分区,以分别为text1、text2和text3这三个文件生成对应的分区数据。
上述事例是针对多条数据文件而言,若针对某一业务数据表,预定规则为以数据的标识作为数据分区的规则,或以哈希值作为数据分区的规则。以预定规则为以数据的标识作为数据分区的规则为例,步骤101具体实现如下事例:
例2,当处理某一业务数据表时,根据数据库表的主关键字(主键,primary key),将分布式数据库中的大数据进行数据分区成(0-10,11-20,21-30)三个区域,这三个区域可以分别为读取数据区、处理数据区和写入数据区。同时,获取分区后每个数据分区对应的分区数据。
步骤102、将多个分区数据分配给各个节点上的作业执行器执行。
所述各个节点上的作业执行器是指不同的作业执行器服务器,用于分别执行分配给各个节点的分区数据。
沿用上述事例1,针对多条数据文件而言,执行步骤101为每个文件(text1、text2和text3)生成对应的分区数据,执行步骤102将多个分区数据分配给各个节点上的作业执行器执行,以实现将多条数据文件对应的分区数据在不同的作业执行器执行,较现有技术,无需大数据分批次在同一服务器上依次进行处理,实现了多个分区数据由各个节点上的作业执行器同时执行,使大数据的批处理可以同时进行,有效的提高了大数据的批处理效率。
沿用上述事例2,针对某一业务数据表而言,执行步骤101获取分区后每个数据分区(读取数据区、处理数据区和写入数据区)对应的分区数据,执行步骤102将多个分区数据分配给各个节点上的作业执行器执行,以实现在某一业务数据表中将读取数据分配到相应的读取数据的执行器执行,将写入数据分配到相应的写入数据的执行器执行,从而将对读、写的处理逻辑进行分离,使在特定的构化查询语言(Structured Query Language,SQL)操作中减少数据读写的总量以缩减响应时间,实现了多个分区数据由各个节点上的作业执行器同时执行,使大数据的批处理可以同时进行,有效的提高了大数据的批处理效率。
在本步骤中,将多个分区数据分配给各个节点上的作业执行器执行,具体包括如下步骤:
步骤S1、将多个分区数据发送至消息队列。
该消息队列是在消息的传输过程中保存消息的容器。消息队列就是一个消息的链表,可以把消息看作一个记录,具有特定的格式以及特定的优先级。对消息队列有写权限的进程可以向消息队列中按照一定的规则添加新消息;对消息队列有读权限的进程则可以从消息队列中读取消息。
步骤S2、以先进先出的原则,将消息队列中的分区数据,分配给相应的作业执行器执行。
其中,消息队列可以包括请求队列和响应队列,步骤S2进一步为:当作业执行器的消息监听器监测到请求队列中存有分区数据时,可以获取请求队列中的分区数据分配给相应的作业执行器执行。
当所述相应的作业执行器执行完毕后,将处理后的数据发送给响应队列,由数据处理的服务器的消息通道分区处理器将处理后的数据汇总,实现了将各个作业执行器的处理结果通过消息队列异步返回。
本申请通过将分区数据发送至消息队列,再由各个作业执行器从消息队列中获取分区数据进行执行,为各个作业执行器分配为本地执行和远程执行,有效的解决了因数据量大致使服务器执行压力大的问题,提高了大数据的批处理效率。同时,各个作业执行器的处理结果通过消息队列异步返回,可以有效避免消息队列拥堵,进一步提高了大数据的批处理效率。
进一步的,为了避免因某一分区数据处理规程中出现异常导致大数据的批处理中断,所述方法还包括:
步骤103、监控各个作业执行器的执行状态,针对执行状态的作业执行器对应的分区数据产生特定指令。
其中,特定指令由作业执行器的执行状态确定的,用于控制执行状态的作业执行器执行特定操作。
该作业执行器的执行状态可以包括执行数据中断、执行数据失败或执行数据阻塞。其中,所述执行数据阻塞是指产生的异常并不是致命异常,即非实质性的异常状况;所述执行数据中断是指瞬态异常,可以通过重试操作克服的异常状况;所述执行数据失败是指由于处理数据的服务器发生错误的情况。
而针对不同的执行状态,则会产生相应的指令,具体如下:
若监测所述作业执行器执行数据阻塞,则针对所述执行数据阻塞的作业执行器对应的分区数据产生跳过指令,所述跳过指令用于控制所述执行数据阻塞的作业执行器执行跳过操作;
若监测所述作业执行器执行数据中断,则针对所述执行数据中断的作业执行器对应的分区数据产生重试指令,所述重试指令用于控制所述执行数据中断的作业执行器执行重试操作;
若监测所述作业执行器执行数据失败,则针对所述执行数据失败的作业执行器对应的分区数据产生重启指令,所述重启指令用于控制所述执行数据失败的作业执行器执行重启操作。
也就是说,若所述特定指令为跳过指令,则该作业执行器跳过正在处理的分区数据,继续执行;若所述特定指令为重试指令,则该作业执行器对当前的分区数据进行重新处理;若所述特定指令为重启指令,则该作业执行器在最后执行失败处重新启动执行作业。
本申请通过在分区数据处理过程中,某一作业执行器出现异常的情况下,可以有效的通过跳过、重试和重新启动等操作克服异常状况,能够有效避免大数据的批处理中断,确保了批处理的连续性和稳定性。
这里需要补充的是,对各个作业执行器的执行状态进行记录。在本实施例中,该执行状态的记录数据存储在分布式数据库中。本申请通过对各个作业执行器的执行状态的记录,可以明确的获知各个作业执行器的执行次数、重试次数、跳过次数及执行时间,便于后续的维护和查看。
进一步的,为了避免通过人工操作来控制作业执行器工作,致使批处理效率低的问题,所述方法还包括:
步骤105、获取用户为各个节点对应的分区数据设置的多个计时阶段,以及每个计时阶段的计时时间。
也就是说,用户预先对大数据中的各个分区数据的处理时间阶段进行设置,以及对每个时间阶段中各个分区数据进行处理的开始时间进行设置。当然,每个时间阶段中各个分区数据进行处理的开始时间,也可以通过处理数据的服务器进行计算得到。
步骤106、在启动计时后,依次对每个计时阶段的计时时间进行倒计时。
步骤107、在每个计时阶段的计时时间倒计时完成后,调度与各个分区数据对应的各个作业执行器执行作业。
本步骤,在计时一定时间后,调度与各个分区数据对应的各个作业执行器执行作业,使得各个作业执行器的调度无需人工控制,有效确保大数据的处理按照合理的时间处理,有效缓解了各个业务执行器的执行压力,进而确保大数据的批处理顺畅进行,提高了批处理的效率。
下面,将结合具体的实施例,对本申请实施例的方法作进一步的描述。
图2示出了本申请实施例提供的一种大数据的批处理方法在实际应用场景下的一示意性流程图。
具体地说,如图2所示,在S210,按照预定规则,将大数据进行数据分区,得到多个分区数据。
在本申请实施例中,例如,分布式数据库中包括业务表,该业务表上有需读取数据(即作业步A)、处理数据(即作业步B)和写入数据C(即作业步C),按照所述预定规则,将上述的作业步A、作业步B和作业步C进行数据分区,得到分区数据:读取分区数据(即执行上下文A)、处理分区数据(即执行上下文B)和写入分区数据(即执行上下文C)。其中,预定规则可以与上述实施例中相似,这里,为了避免赘述,省略其说明。
在S220,将多个分区数据分配给各个节点上的作业执行器执行。
在本申请实施例中,首先,通过作业步执行分流器将步骤S210中获得的分区数据执行上下文A、执行上下文B和执行上下文C,分成远程执行作业步A、远程执行作业步B和远程执行作业步C。然后,将远程执行作业步A、远程执行作业步B和远程执行作业步C通过消息通道分区处理器,发送至消失队列的请求队列中,由执行器的消息监听器监测请求队列中存有远程执行作业步后,将该远程执行作业步发送给对应的作业执行器执行。最后,将该作业执行器执行后获得的执行结果,反馈给消息队列的响应队列,由相应队列将执行结果汇总至消息通道分区处理器中。
由于各个作业执行器为执行器服务器,因此,本申请通过将按照预定规则对大数据进行数据分区,得到多个分区数据,并将多个分区数据分配给各个节点上的作业执行器执行,可以使得多个分区数据可以同时在各个节点上的执行器服务器上执行,使得多个分区数据可以同时被处理,同时可以避免某一节点对应的作业执行器在处理分区数据的过程中出现异常,对其他节点对应作业执行器在处理分区数据造成干扰的现象发生,有效的提高了大数据的批处理效率。
以上,结合图1和图2详细说明了本申请实施例的大数据的批处理方法,下面,结合图3,详细说明本申请实施例的大数据的批处理装置。
图3示出了本申请实施例提供的一种大数据的批处理装置的结构示意图,如图3所示,该大数据的批处理装置基于与本申请一实施例提供的一种大数据的批处理方法同样的发明构思,该装置包括:
分区模块301,用于按照预定规则,将大数据进行数据分区,得到多个分区数据;其中,该预定规则可以为以文件的名称作为数据分区的规则,或以数据的标识作为数据分区的规则,或以哈希值作为数据分区的规则;所述文件的名称为数据所属的文件名称。
分配模块302,用于将多个分区数据分配给各个节点上的作业执行器执行,作业执行器用于独立执行节点对应的分区数据。
分配模块302可以包括:
发送单元,用于将多个分区数据发送至消息队列;
分配单元,用于以先进先出的原则,将消息队列中的分区数据,分配给相应的作业执行器执行。
大数据的批处理装置还可以包括:
监控模块,用于监控各个作业执行器的执行状态,针对执行状态的作业执行器对应的分区数据产生特定指令,特定指令由作业执行器的执行状态确定的,用于控制执行状态的作业执行器执行特定操作。
作业执行器的执行状态可以包括执行数据中断、执行数据失败或执行数据阻塞;
监控模块可以包括:
跳过指令产生单元,用于若监测所述作业执行器执行数据阻塞,则针对所述执行数据阻塞的作业执行器对应的分区数据产生跳过指令,所述跳过指令用于控制所述执行数据阻塞的作业执行器执行跳过操作;
重试指令产生单元,用于若监测所述作业执行器执行数据中断,则针对所述执行数据中断的作业执行器对应的分区数据产生重试指令,所述重试指令用于控制所述执行数据中断的作业执行器执行重试操作;
重启指令产生单元,用于若监测所述作业执行器执行数据失败,则针对所述执行数据失败的作业执行器对应的分区数据产生重启指令,所述重启指令用于控制所述执行数据失败的作业执行器执行重启操作。
大数据的批处理装置还可以包括:
获取模块,用于获取用户为各个节点对应的分区数据设置的多个计时阶段,以及每个计时阶段的计时时间;
计时模块,用于在启动计时后,依次对每个计时阶段的计时时间进行倒计时;
调度模块,用于在每个计时阶段的计时时间倒计时完成后,调度与各个分区数据对应的各个作业执行器执行作业。
由于各个作业执行器为执行器服务器,因此,本申请通过将按照预定规则对大数据进行数据分区,得到多个分区数据,并将多个分区数据分配给各个节点上的作业执行器执行,可以使得多个分区数据可以同时在各个节点上的执行器服务器上执行,使得多个分区数据可以同时被处理,同时可以避免某一节点对应的作业执行器在处理分区数据的过程中出现异常,对其他节点对应作业执行器在处理分区数据造成干扰的现象发生,有效的提高了大数据的批处理效率。
图4是本申请的一个实施例电子设备的结构示意图。请参考图4,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成应用大数据的批处理装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
按照预定规则,将大数据进行数据分区,得到多个分区数据;
将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。
上述如本申请图1所示实施例揭示的大数据的批处理装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1中大数据的批处理装置执行的方法,并实现大数据的批处理装置在图1所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图1所示实施例中大数据的批处理装置执行的方法,并具体用于执行:
按照预定规则,将大数据进行数据分区,得到多个分区数据;
将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。
以上,结合图1和图2详细说明了本申请实施例的大数据的批处理方法,下面,结合图5,详细说明本申请实施例的计算机系统。
图5示出了本申请实施例提供的一种计算机系统的结构示意图,如图5所示,该系统可包括:多个作业执行器501和大数据的批处理装置502。该大数据的批处理装置502可以是图3所示实施例的大数据的批处理装置,该大数据的批处理装置502用于将大数据进行数据分区得到多个分区数据,并将多个分区数据分配给各个节点上的作业执行器501执行。
由于各个作业执行器为执行器服务器,因此,本申请通过将按照预定规则对大数据进行数据分区,得到多个分区数据,并将多个分区数据分配给各个节点上的作业执行器执行,可以使得多个分区数据可以同时在各个节点上的执行器服务器上执行,使得多个分区数据可以同时被处理,同时可以避免某一节点对应的作业执行器在处理分区数据的过程中出现异常,对其他节点对应作业执行器在处理分区数据造成干扰的现象发生,有效的提高了大数据的批处理效率。
本领域内的技术人员应明白,本申请的实施例可提供为装置、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的装置、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何装置或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、装置、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (14)
1.一种大数据的批处理方法,其特征在于,所述方法包括:
按照预定规则,将大数据进行数据分区,得到多个分区数据;
将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。
2.根据权利要求1所述的方法,其特征在于,将所述多个分区数据分配给各个节点上的作业执行器执行,具体包括:
将所述多个分区数据发送至消息队列;
以先进先出的原则,将消息队列中的分区数据,分配给相应的作业执行器执行。
3.根据权利要求1或2所述的方法,其特征在于,将所述多个分区数据分配给各个节点上的作业执行器执行之后,所述方法还包括:
监控各个所述作业执行器的执行状态,针对所述执行状态的作业执行器对应的分区数据产生特定指令,所述特定指令由所述作业执行器的执行状态确定的,用于控制所述执行状态的作业执行器执行特定操作。
4.根据权利要求3所述的方法,其特征在于,所述作业执行器的执行状态包括执行数据中断、执行数据失败或执行数据阻塞;
监控各个所述作业执行器的执行状态,针对所述执行状态的作业执行器对应的分区数据产生特定指令,具体包括:
若监测所述作业执行器执行数据阻塞,则针对所述执行数据阻塞的作业执行器对应的分区数据产生跳过指令,所述跳过指令用于控制所述执行数据阻塞的作业执行器执行跳过操作;
若监测所述作业执行器执行数据中断,则针对所述执行数据中断的作业执行器对应的分区数据产生重试指令,所述重试指令用于控制所述执行数据中断的作业执行器执行重试操作;
若监测所述作业执行器执行数据失败,则针对所述执行数据失败的作业执行器对应的分区数据产生重启指令,所述重启指令用于控制所述执行数据失败的作业执行器执行重启操作。
5.根据权利要求1或2所述的方法,其特征在于,将所述多个分区数据分配给各个节点上的作业执行器执行之后,还包括:
获取用户为所述各个节点对应的分区数据设置的多个计时阶段,以及每个计时阶段的计时时间;
在启动计时后,依次对所述每个计时阶段的计时时间进行倒计时;
在每个计时阶段的计时时间倒计时完成后,调度与各个所述分区数据对应的各个所述作业执行器执行作业。
6.根据权利要求1或2所述的方法,其特征在于,所述预定规则为以文件的名称作为数据分区的规则,或以数据的标识作为数据分区的规则,或以哈希值作为数据分区的规则;所述文件的名称为数据所属的文件名称。
7.一种大数据的批处理装置,其特征在于,所述装置包括:
分区模块,用于按照预定规则,将大数据进行数据分区,得到多个分区数据;
分配模块,用于将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。
8.根据权利要求7所述的装置,其特征在于,所述分配模块包括:
发送单元,用于将所述多个分区数据发送至消息队列;
分配单元,用于以先进先出的原则,将消息队列中的分区数据,分配给相应的作业执行器执行。
9.根据权利要求7或8所述的装置,其特征在于,所述装置还包括:
监控模块,用于监控各个所述作业执行器的执行状态,针对所述执行状态的作业执行器对应的分区数据产生特定指令,所述特定指令由所述作业执行器的执行状态确定的,用于控制所述执行状态的作业执行器执行特定操作。
10.根据权利要求9所述的装置,其特征在于,所述作业执行器的执行状态包括执行数据中断、执行数据失败或执行数据阻塞;
所述监控模块包括:
跳过指令产生单元,用于若监测所述作业执行器数据阻塞,则针对所述执行数据阻塞的作业执行器对应的分区数据产生跳过指令,所述跳过指令用于控制所述执行数据阻塞的作业执行器执行跳过操作;
重试指令产生单元,用于若监测所述作业执行器数据中断,则针对所述执行数据中断的作业执行器对应的分区数据产生重试指令,所述重试指令用于控制所述执行数据中断的作业执行器执行重试操作;
重启指令产生单元,用于若监测所述作业执行器执行数据失败,则针对所述执行数据失败的作业执行器对应的分区数据产生重启指令,所述重启指令用于控制所述执行数据失败的作业执行器执行重启操作。
11.根据权利要求7或8所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取用户为所述各个节点对应的分区数据设置的多个计时阶段,以及每个计时阶段的计时时间;
计时模块,用于在启动计时后,依次对所述每个计时阶段的计时时间进行倒计时;
调度模块,用于在每个计时阶段的计时时间倒计时完成后,调度与各个所述分区数据对应的各个所述作业执行器执行作业。
12.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
按照预定规则,将大数据进行数据分区,得到多个分区数据;
将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。
13.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
按照预定规则,将大数据进行数据分区,得到多个分区数据;
将所述多个分区数据分配给各个节点上的作业执行器执行,每个所述作业执行器用于独立执行节点对应的分区数据。
14.一种计算机系统,其特征在于,所述系统包括:
多个作业执行器;
上述权利要求7~11中任一项所述的大数据的批处理装置,用于将大数据进行数据分区得到多个分区数据,并将多个分区数据分配给各个节点上的作业执行器执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710375506.4A CN107273195B (zh) | 2017-05-24 | 2017-05-24 | 一种大数据的批处理方法、装置及计算机系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710375506.4A CN107273195B (zh) | 2017-05-24 | 2017-05-24 | 一种大数据的批处理方法、装置及计算机系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107273195A true CN107273195A (zh) | 2017-10-20 |
CN107273195B CN107273195B (zh) | 2020-06-02 |
Family
ID=60064193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710375506.4A Active CN107273195B (zh) | 2017-05-24 | 2017-05-24 | 一种大数据的批处理方法、装置及计算机系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107273195B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086138A (zh) * | 2018-08-07 | 2018-12-25 | 北京京东金融科技控股有限公司 | 数据处理方法和系统 |
CN109241205A (zh) * | 2018-11-21 | 2019-01-18 | 南京安讯科技有限责任公司 | 一种可用于大批量生成关系型模拟数据的方法 |
CN109325002A (zh) * | 2018-09-03 | 2019-02-12 | 北京京东金融科技控股有限公司 | 文本文件处理方法、装置、系统、电子设备、存储介质 |
CN110516738A (zh) * | 2019-08-23 | 2019-11-29 | 佳都新太科技股份有限公司 | 一种分布式比对聚类方法、装置、电子设备及存储介质 |
CN110659312A (zh) * | 2019-08-01 | 2020-01-07 | 北京百度网讯科技有限公司 | 数据处理的方法、装置、设备和计算机存储介质 |
CN110704517A (zh) * | 2018-06-21 | 2020-01-17 | 北京国双科技有限公司 | 一种生成任务的方法、装置、存储介质及处理器 |
CN110837419A (zh) * | 2019-11-08 | 2020-02-25 | 上海交通大学 | 基于弹性批处理的推理引擎系统、方法及电子设备 |
CN111984328A (zh) * | 2020-04-30 | 2020-11-24 | 中科院计算所西部高等技术研究院 | 具有ooda循环分区机制的流式处理器 |
CN113094185A (zh) * | 2021-04-13 | 2021-07-09 | 中国工商银行股份有限公司 | 数据库批量程序并行数据处理异常检测方法及装置 |
CN113699637A (zh) * | 2021-09-05 | 2021-11-26 | 江阴市子龙呢绒有限公司 | 一种新型提花机操作系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177059A (zh) * | 2011-12-23 | 2013-06-26 | Sap股份公司 | 用于数据库计算引擎的分离处理路径 |
CN105893117A (zh) * | 2015-11-26 | 2016-08-24 | 乐视云计算有限公司 | 云服务的任务流的配置系统及方法 |
CN106547635A (zh) * | 2015-09-18 | 2017-03-29 | 阿里巴巴集团控股有限公司 | 一种作业的操作重试方法和装置 |
-
2017
- 2017-05-24 CN CN201710375506.4A patent/CN107273195B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177059A (zh) * | 2011-12-23 | 2013-06-26 | Sap股份公司 | 用于数据库计算引擎的分离处理路径 |
CN106547635A (zh) * | 2015-09-18 | 2017-03-29 | 阿里巴巴集团控股有限公司 | 一种作业的操作重试方法和装置 |
CN105893117A (zh) * | 2015-11-26 | 2016-08-24 | 乐视云计算有限公司 | 云服务的任务流的配置系统及方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704517A (zh) * | 2018-06-21 | 2020-01-17 | 北京国双科技有限公司 | 一种生成任务的方法、装置、存储介质及处理器 |
CN109086138A (zh) * | 2018-08-07 | 2018-12-25 | 北京京东金融科技控股有限公司 | 数据处理方法和系统 |
CN109325002A (zh) * | 2018-09-03 | 2019-02-12 | 北京京东金融科技控股有限公司 | 文本文件处理方法、装置、系统、电子设备、存储介质 |
CN109241205A (zh) * | 2018-11-21 | 2019-01-18 | 南京安讯科技有限责任公司 | 一种可用于大批量生成关系型模拟数据的方法 |
CN110659312B (zh) * | 2019-08-01 | 2022-08-23 | 北京百度网讯科技有限公司 | 数据处理的方法、装置、设备和计算机存储介质 |
CN110659312A (zh) * | 2019-08-01 | 2020-01-07 | 北京百度网讯科技有限公司 | 数据处理的方法、装置、设备和计算机存储介质 |
CN110516738A (zh) * | 2019-08-23 | 2019-11-29 | 佳都新太科技股份有限公司 | 一种分布式比对聚类方法、装置、电子设备及存储介质 |
CN110516738B (zh) * | 2019-08-23 | 2022-09-16 | 佳都科技集团股份有限公司 | 一种分布式比对聚类方法、装置、电子设备及存储介质 |
CN110837419A (zh) * | 2019-11-08 | 2020-02-25 | 上海交通大学 | 基于弹性批处理的推理引擎系统、方法及电子设备 |
CN110837419B (zh) * | 2019-11-08 | 2023-05-19 | 上海交通大学 | 基于弹性批处理的推理引擎系统、方法及电子设备 |
CN111984328A (zh) * | 2020-04-30 | 2020-11-24 | 中科院计算所西部高等技术研究院 | 具有ooda循环分区机制的流式处理器 |
CN113094185A (zh) * | 2021-04-13 | 2021-07-09 | 中国工商银行股份有限公司 | 数据库批量程序并行数据处理异常检测方法及装置 |
CN113699637A (zh) * | 2021-09-05 | 2021-11-26 | 江阴市子龙呢绒有限公司 | 一种新型提花机操作系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107273195B (zh) | 2020-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273195A (zh) | 一种大数据的批处理方法、装置及计算机系统 | |
CN108595157B (zh) | 区块链数据的处理方法、装置、设备和存储介质 | |
CN103729442B (zh) | 记录事务日志的方法和数据库引擎 | |
US8732720B2 (en) | Job scheduling based on map stage and reduce stage duration | |
CN103370691B (zh) | 管理缓冲器溢出状况 | |
KR101959153B1 (ko) | 데이터베이스에서의 계좌와 관련된 거래 요청의 효율적인 처리를 위한 시스템 | |
CN107229555A (zh) | 标识生成方法和装置 | |
CN111932257B (zh) | 一种区块链并行化处理方法及装置 | |
CN112632077A (zh) | 基于redis的数据存储方法、装置、设备及存储介质 | |
CN105989059A (zh) | 数据记录核对方法及装置 | |
CN106899654A (zh) | 一种序列值生成方法、装置及系统 | |
KR20190108020A (ko) | 블록체인을 이용한 트랜잭션 처리 방법 및 이를 이용한 트랜잭션 서버 | |
CN110515795A (zh) | 一种大数据组件的监控方法、装置、电子设备 | |
CN104252386B (zh) | 数据更新的加锁方法和设备 | |
CN107832446B (zh) | 一种配置项信息的搜索方法及计算设备 | |
CN110134646B (zh) | 知识平台服务数据存储与集成方法及系统 | |
US11449407B2 (en) | System and method for monitoring computing platform parameters and dynamically generating and deploying monitoring packages | |
CN106570005A (zh) | 清理数据库的方法和装置 | |
CN109241057A (zh) | 一种用于分布式系统的数字id生成方法 | |
CN1783121A (zh) | 用于执行设计自动化的方法和系统 | |
US10761940B2 (en) | Method, device and program product for reducing data recovery time of storage system | |
CN108664322A (zh) | 数据处理方法及系统 | |
CN116244062A (zh) | 一种数据处理方法、装置、电子设备和存储介质 | |
CN109003643A (zh) | 一种数据处理方法及装置 | |
CN115048466A (zh) | 一种数据分析方法、系统、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |