CN102255926B - MapReduce系统中的任务分配方法、系统及装置 - Google Patents

MapReduce系统中的任务分配方法、系统及装置 Download PDF

Info

Publication number
CN102255926B
CN102255926B CN201010178143.3A CN201010178143A CN102255926B CN 102255926 B CN102255926 B CN 102255926B CN 201010178143 A CN201010178143 A CN 201010178143A CN 102255926 B CN102255926 B CN 102255926B
Authority
CN
China
Prior art keywords
client
information
clients
resource utilisation
utilisation information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010178143.3A
Other languages
English (en)
Other versions
CN102255926A (zh
Inventor
孙宏伟
郭磊涛
罗治国
孙少陵
黄晓庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201010178143.3A priority Critical patent/CN102255926B/zh
Publication of CN102255926A publication Critical patent/CN102255926A/zh
Application granted granted Critical
Publication of CN102255926B publication Critical patent/CN102255926B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种MapReduce系统中任务分配的方法、系统及装置,用以解决现有技术中客户端可能出现由于内存溢出而宕机的故障,从而影响MR系统可靠性的问题。该方法在原有MR系统中增加对各个客户端进行管理的客户端管理节点,客户端管理节点根据各客户端的资源利用信息,确定进行数据分片处理的客户端,并指示该确定的客户端进行对待处理的数据进行数据分片处理。由于在本发明实施例中客户端管理节点根据各客户端的资源利用信息,确定进行数据分片处理的客户端,从而可以减小资源利用信息不满足条件的客户端进行业务处理的风险,并减小该客户端出现宕机的可能性,进而提高了MR系统的可靠性。

Description

MapReduce系统中的任务分配方法、系统及装置
技术领域
本发明涉及云计算技术领域,尤其涉及一种映射化简(MapReduce,MR)系统中的任务分配方法、系统及装置。
背景技术
MR系统为一种分布式的并行系统,应用于云计算中的海量数据处理中,在MR系统中通过映射(Map)和化简(Reduce)过程实现对数据的分布式处理。
图1为现有技术中MR系统的逻辑组成结构示意图,在MR系统中包括客户端(client)、主节点(master)和工作节点(worker),并且为了实现对数据的分布式处理,在MR系统中包括多个客户端和多个工作节点。图2为现有技术MR系统中进行任务分配的过程,该过程包括以下步骤:
S201:用户向客户端发送进行业务处理的指示信息以及待处理的数据。
S202:客户端接收到该待处理的数据后,将进行业务处理的指示信息和待处理的数据保存到分布式文件系统。
S203:该客户端对待处理的数据进行数据分片处理。
S204:客户端对数据分片处理后,将所述用户发送的进行业务处理的指示信息发送到所述主节点。
S205:主节点根据接收的所述指示信息将所述分片后的数据分解为待执行的任务,即将分片后的数据分解为Map任务和/或Reduce任务。
S206:当工作节点请求任务时,主节点将分解后的待执行任务发送到工作节点执行。
在现有技术的上述实施过程中,当客户端接收到用户发送的待处理的数据后,自身进行处理,由于对待处理的数据进行数据分片时占用客户端一定的内存资源,当客户端在短时间内对大量的数据进行数据分片处理时,客户端可能出现由于内存溢出而宕机的故障。由于整个MR系统为并行处理系统,当该客户端出现故障时,整个MR系统的可靠性将受到影响。
发明内容
有鉴于此,本发明实施例提供一种MapReduce系统中任务分配方法、系统及装置,用以解决现有技术中客户端可能出现由于内存溢出而宕机的故障,从而影响MR系统可靠性的问题。
本发明实施例提供的一种MapReduce系统中的任务分配方法,包括:
客户端管理节点接收数据分片任务;
所述客户端管理节点根据各客户端的资源利用信息,确定进行数据分片处理的客户端;
所述客户端管理节点将所述数据分片任务中的待处理数据分配给确定的所述客户端。
本发明实施例提供的一种MapReduce系统中的任务分配方法,包括:
第一客户端接收用户发送的待处理的数据,判断自身的资源利用信息是否满足预设条件;
当所述第一客户端的资源利用信息不满足预设条件时,所述第一客户端根据保存的其他客户端的资源利用信息,确定进行数据分片处理的第二客户端,指示所述第二客户端对所述待处理的数据进行数据分片处理。
本发明实施例提供的一种MapReduce系统中的任务分配系统,包括:
客户端管理节点,用于接收数据分片任务,根据各客户端的资源利用信息,确定进行数据分片处理的客户端,将所述数据分片任务中的待处理数据分配给确定的所述客户端,指示确定的所述客户端对待处理的数据进行数据分片处理;
客户端,用于接收所述客户端管理节点分配的对待处理数据进行分片处理的任务,并对所述待处理的数据进行数据分片处理。
本发明实施例提供的一种MapReduce系统中的任务分配系统,包括:
第一客户端,用于接收用户发送的待处理的数据,判断自身的资源利用信息是否满足预设条件,当自身的资源利用信息不满足预设条件时,所述第一客户端根据保存的其他客户端的资源利用信息,确定进行数据分片处理的第二客户端,指示所述第二客户端对所述待处理的数据进行数据分片处理;
第二客户端,用于对所述待处理的数据进行数据分片处理。
本发明实施例提供的一种MapReduce系统中的任务分配装置,包括:
接收模块,用于接收数据分片任务;
确定模块,用于根据各客户端的资源利用信息,确定进行数据分片处理的客户端;
分配模块,用于将所述数据分片任务中的待处理数据分配给确定的所述客户端,指示确定的所述客户端对待处理的数据进行数据分片处理。
本发明实施例提供的一种MapReduce系统中的任务分配装置,包括:
接收判断模块,用于接收用户发送的待处理的数据,判断自身的资源利用信息是否满足预设条件;
确定模块,用于在自身的资源利用信息不满足预设条件时,根据保存的其他客户端的资源利用信息,确定进行数据分片处理的第二客户端,指示所述第二客户端对所述待处理的数据进行数据分片处理。
本发明实施例提供了一种MR系统中任务分配的方法、系统及装置,通过在原有MR系统中增加对各个客户端进行管理的客户端管理节点,客户端管理节点根据保存的各客户端的资源利用信息,确定进行数据分片处理的客户端,并指示该确定的客户端进行对待处理的数据进行数据分片处理。由于在本发明实施例中客户端管理节点根据各客户端的资源利用信息,确定进行数据分片处理的客户端,从而可以减小资源利用信息不满足条件的客户端进行业务处理的风险,并减小该客户端出现宕机的可能性,进而提高了MR系统的可靠性。
附图说明
图1为现有技术中MR系统的组成结构示意图;
图2为现有技术MR系统中进行任务分配的方法;
图3为本发明实施例提供的MR系统中进行任务分配的方法;
图4为本发明实施例提供的MR系统中进行任务分配的另一实施过程;
图5为本发明实施例提供的一种MR系统中的任务分配系统的结构示意图;
图6为本发明实施例提供的一种MR系统中的任务分配装置的结构示意图;
图7为本发明实施例提供的一种MR系统中的任务分配系统的结构示意图;
图8为本发明实施例提供的一种MR系统中的任务分配装置的结构示意图。
具体实施方式
本发明实施例为了提高客户端的稳定性,进而提高MR系统的可靠性,提供了一种MR系统中的任务分配方法、系统及装置,在本发明实施例中通过获取客户端的资源利用信息,将对数据进行分片的任务分配到对应的客户端进行,从而减轻资源利用较大的客户端的压力,减少了客户端出现宕机的可能性,从而提高了MR系统的可靠性。
下面结合说明书附图,对本发明实施例进行详细说明。
图3为本发明实施例提供的MR系统中进行任务分配的过程,该过程包括以下步骤:
S301:客户端管理节点接收数据分片任务。
在本发明实施例中在MR系统中增加对各个客户端进行管理的客户端管理节点,当客户端接收到用户发送的待处理数据时,客户端将接收的该待处理的数据保存到分布式文件系统,客户端根据接收的所述待处理的数据,向客户端管理节点发送数据分片任务。
S302:所述客户端管理节点根据各客户端的资源利用信息,确定进行数据分片处理的客户端。
在本发明实施例中客户端管理节点获取各客户端的资源利用信息包括:所述客户端管理节点接收到所述数据分片任务时,根据保存的与其连接的各客户端的标识信息,向所述各客户端发送获取资源利用信息的请求信息,接收并保存所述各客户端返回的资源利用信息;或者,
客户端管理节点根据与自身连接的各客户端根据设置的上报周期,上报给自身的资源利用信息并保存。
并且在本发明实施例中确定进行数据分片处理的客户端,可以将资源利用最低的客户端确定为进行数据分片处理的客户端,或者,根据设置的阈值,选择资源利用小于阈值的客户端,并且在选择的客户端中任意选择一个客户端作为确定的进行数据分片处理的客户端等等。
S303:所述客户端管理节点将所述数据分片任务中的待处理数据分配给确定的所述客户端,指示确定的所述客户端对待处理的数据进行数据分片处理。
在本发明实施例中当确定的客户端对该待处理的数据分片处理完成后,该确定的客户端向客户端管理节点发送通知信息,该通知信息用于通知所述客户端管理节点该确定的客户端对所述待处理的数据分片处理完成。
由于在本发明实施例中增加了客户端管理节点,当客户端管理节点接收到确定的客户端发送的通知信息后,所述客户端管理节点将接收的用户发送的业务处理指示信息发送到主节点,指示所述主节点根据所述业务处理指示信息,将分片处理后的数据进行业务处理类型的划分,并将划分后的数据调度到的工作节点上,指示工作节点采用对应的工作处理类型处理。并且在客户端管理节点接收到用户发送的业务状态查询请求时,将该述业务状态查询请求发送到所述主节点,并接收主节点反馈的查询结果,将该查询结果返回用户。
在本发明实施例中可以在MR系统中增加对各客户端进行管理的客户端管理节点,该客户端管理节点可以获取与其连接的各客户端的资源利用信息,或称负载信息,其中资源利用信息包括CPU使用信息,内存使用信息和当前进行数据分片任务处理数量的信息等信息中的一种或几种。获取的方式可以是各客户端按照设置的上报周期,定期向客户端管理节点上报自身的资源利用信息,或者也可以是客户端管理节点在接收到客户端发送的数据分片任务时,向与其连接的每个客户端发送获取资源利用信息的请求信息,接收并保存客户端返回的自身的资源利用信息。客户端管理节点根据资源利用信息中各客户端的标识信息,在保存的客户端资源利用信息表中,对各客户端的资源利用信息进行更新。
并且,在本发明实施中还可以根据MR系统中客户端的数量,增加至少一个客户端管理节点,每个客户端管理节点之间相互独立,并且每个客户端管理节点保存至少两个客户端的资源利用信息,即每个客户端的资源利用信息只保存在一个客户端管理节点内。每个客户端管理节点在对业务进行分配时都遵循以上的方法。
当客户端接收到用户发送的业务处理指示信息及待处理的数据时,将该业务处理指示信息和待处理的数据保存到分布式文件系统,该客户端向客户端管理节点发送数据分片任务。
由于面向用户的客户端存在多个,因此客户端管理节点可能同时接收到多个客户端发送的数据分片任务。客户端管理节点在确定对每个数据分片任务进行数据分片处理的客户端时,可以根据接收到数据分片任务的时间进行处理。由于客户端管理节点接收到的数据分片任务来自不同的用户,并且不同的用户可能对应的优先级不同,用户的优先级信息可以在数据分片任务中标识,因此客户端管理节点也可以根据每个数据分片任务对应的用户的优先级,例如第一数据分片任务对应的用户的优先级高于第二数据分片任务对应的用户的优先级,则客户端管理节点首先确定对该第一数据分片任务进行数据分片处理的客户端。
或者,在本发明实施例中该数据分片任务中可以标识该数据分片任务对应的待处理数据的数据量信息,当客户端管理节点接收到标识不同数据量的数据分片任务时,为了提高数据分片的处理效率,客户端管理节点可以首先选择标识的数据量比较小的数据分片任务,针对该数据分片任务确定进行数据分片处理的客户端。当然客户端管理节点也可以首先选择标识数据量比较大的数据分片任务,针对该数据分片任务确定进行数据分片处理的客户端。
客户端管理节点接收到该数据分片任务后,根据保存的各客户端的资源利用信息,确定进行数据分片处理的客户端,客户端管理节点将该数据分片任务中的待处理数据分配给该确定的客户端,指示该确定的客户端对该待处理的数据进行数据分片处理,例如分配给CPU利用比较低的客户端,或当前进行数据分片任务处理数量比较少的客户端等等。
其中,在客户端管理节点在确定进行数据分片处理的客户端时,可以根据保存的每个客户端的资源利用信息进行确定,并且还可以结合客户端管理节点对每个客户端的资源利用信息的更新时间信息进行确定。
由于每个客户端当前需要进行数据分片任务的处理,或其他业务的处理,当接收到客户端管理节点发送的获取资源利用信息的请求信息,或按照设置的上报周期,向客户端管理节点发送资源利用信息时,即使每个客户端接收到请求信息的时间,或设置的上报周期都相同,客户端管理节点接收到每个客户端发送的资源利用信息的时间也不可能完全相同。因此客户端管理节点对各客户端的资源利用信息进行更新的时间也不同。因此客户端管理节点在接收到每个客户端发送的资源利用信息,根据保存的各客户端的资源利用信息,对每个客户端的资源利用信息更新时间也不同。
在本发明实施例中客户端管理节点在确定进行数据分片处理的客户端时,可以选择资源利用较低,反馈最快的客户端(例如对于当客户端管理节点接收到数据分片任务时,向客户端发送获取资源利用信息的请求信息时采用,反馈的快慢可以通过资源利用信息的更新时间确定,更新的时间越早则反馈越快)为进行数据分片处理的客户端,或选择资源利用率较低,更新最晚的客户端(例如对于客户端按照设置的上报周期进行上报资源利用率信息时采用)为进行数据分片处理的客户端。
当该确定的客户端对待处理的数据分片处理完成后,该客户端向客户端管理节点发送通知信息,通知客户端管理节点该确定的客户端对处理数据的分片处理完成。
客户端管理节点接收到该通知信息后,将用户发送的业务处理指示信息发送到主节点,指示主节点根据该业务处理指示信息,将分片处理后的数据进行业务处理类型的划分,即将该分片后的数据划分为进行映射处理,或进行化简处理。当工作节点向主节点请求任务时,该主节点将划分后的数据调度到该工作节点,指示工作节点对该数据采用对应的业务处理类型进行处理,即对数据进行映射处理,或进行化简处理。
当用户需要查询业务的处理状态时,用户向客户端发送业务状态查询请求,其中业务状态查询请求中包括该业务的属性信息,例如业务发送的时间,业务的标识信息等。客户端将接收的业务状态查询请求发送到客户端管理节点,客户端管理节点再将该业务状态查询请求发送到主节点。主节点根据业务处理的状况,及业务状态查询请求中包含的业务的属性信息,将包含业务状态信息的查询结果反馈给客户端管理节点,客户端管理节点将该查询结果返回客户端,并通过客户端返回用户,使用户获知业务的处理状态。
在本发明的上述实施例中由于在MR系统中增加了对客户端进行管理的客户端管理节点,客户端管理节点可以保存各个客户端的资源利用信息,或称为负载信息,当客户端接收到用户发送的待处理的数据时,向客户端管理节点发送数据分片任务,由客户端管理节点根据保存的各个客户端的资源利用信息,将数据分片业务分配给满足资源利用条件的客户端,例如分配给资源利用最低的客户端等。因此本发明实施例提供MR系统中的任务分配方法,可以有效的减轻资源利用不满足条件的客户端的负担,即可以减轻资源利用比较高的客户端的压力,从而提高了客户端的稳定性,从而提高了MR系统的可靠性。
图4为本发明实施例提供的在MR系统中进行任务分配的另一实施过程,该过程包括以下步骤:
S401:第一客户端接收用户发送的待处理的数据,判断自身的资源利用信息是否满足预设条件。
第一客户端接收用户发送的待处理的数据,根据自身的资源利用信息,判断自身的资源利用信息是否满足预设条件,即判断自身的资源利用信息是否低于设定的阈值,当第一客户端的资源利用信息低于设定的阈值时,该第一客户端对待处理的数据进行数据分片处理。
S402:当所述第一客户端的资源利用信息不满足预设条件时,所述第一客户端根据保存的其他客户端的资源利用信息,确定进行数据分片处理的第二客户端,指示所述第二客户端对所述待处理的数据进行数据分片处理。
当第一客户端的资源利用信息高于设定的阈值时,即不满足预设条件时,则第一客户端根据保存的其他客户端的资源利用信息,确定进行数据分片处理的第二客户端。
实施例一:
为了提高进行数据分片处理的效率,在本发明实施中第一客户端可以保存MR系统中每个其他客户端的资源利用信息,即保存的其他客户端的资源利用信息包括保存MR系统中除第一客户端之后的每个其他客户端的资源利用信息。第一客户端在确定进行业务处理的第二客户端时,根据保存的MR系统中每个其他客户端的标识信息,向每个其他客户端发送获取资源利用信息的请求信息,接收到该获取资源利用信息的请求信息的其他客户端向第一客户端返回自身的资源利用信息,其中该资源利用信息中包含其他客户端的标识信息,该第一客户端根据每个其他客户端返回的资源利用的信息,确定进行业务处理的第二客户端。
其中第一客户端在根据每个其他客户端返回的资源利用信息,确定进行业务处理的第二客户端时,可以是将资源利用最低的客户端确定为进行业务处理的第二客户端,或者,根据设置的阈值,选择资源利用小于阈值的客户端,并且在选择的客户端中任意选择一个客户端作为确定的第二客户端等等。
实施例二:
为了减小客户端的内存占有率,提高客户端进行数据分片处理的效率,在本发明实施中第一客户端在确定进行业务处理的客户端时,还可以包括:第一客户端根据保存的MR系统中每个其他客户端的标识信息,向其中一个其他客户端发送获取资源利用信息的请求信息,接收到该获取资源利用信息的请求信息的该一个其他客户端向第一客户端返回自身的资源利用信息,其中该资源利用信息中包含客户端的标识信息,第一客户端根据该一个其他客户端返回的资源利用信息,确定该一个其他客户端是否为进行业务处理的第二客户端。
其中,在确定该一个其他客户端是否为进行业务处理的第二客户端时包括:判断该一个其他客户端的资源利用信息是否小于设置的阈值,当该一个其他客户端的资源利用信息小于设置的阈值时,则确定该一个其他客户端为进行业务处理的第二客户端。当该一个其他客户端的资源利用信息大于设置的阈值时,则第一客户端根据保存的MR系统中每个其他客户端的标识信息,向其中另一客户端发送获取资源利用信息的请求信息,并接收该另一其他客户端返回的资源利用信息,继而确定该另一其他客户端是否为进行业务处理的第二客户端,上述方法反复,直到确定了可以进行业务处理的第二客户端为止。
实施例三:
为了减小占用的客户端的内存资源,在本发明实施例中第一客户端也可以只保存MR系统中部分其他客户端的标识信息,该部分其他客户端的标识信息可以为与该第一客户端位置临近的客户端的标识信息。当该第一客户端获确定进行业务处理的第二客户端时,可以包括:第一客户端根据保存该MR系统中其他客户端的标识信息,向每个其他客户端发送获取资源利用信息的请求信息,接收到该获取资源利用信息的请求信息的每个其他客户端向该第一客户端返回自身的资源利用信息,其中该资源利用信息中包含客户端的标识信息,第一客户端根据该每个其他客户端返回的资源利用信息,确定进行业务处理的第二客户端。
在第一客户端确定进行业务处理的第二客户端时包括:将资源利用信息最低的客户端确定为进行业务处理的第二客户端,或者,根据设置的阈值,选择资源利用信息小于阈值的客户端,并且在选择的客户端中任意选择一个客户端作为确定的第二客户端等等。
在上述实施过程中,由于在第一客户端中只保存了部分其他客户端的标识信息,在确定进行业务处理的第二客户端时,可能存在该第一客户端保存的每个其他客户端的资源利用信息都不满足设置的条件,即此时该保存的其他客户端都不能被确定为进行业务处理的第二客户端。此时,该第一客户端根据其保存的其他客户端的标识信息,向该其他客户端的部分或全部发送继续获取资源利用信息的请求信息,指示该部分或全部其他客户端根据自身保存的其他客户端的标识信息,继续获取资源利用信息,从而确定进行业务处理的第二客户端。
由于每个第一客户端中保存的部分其他客户端的标识信息都不可能完全相同,因此在本发明实施中该第一客户端中保存的每个其他客户端都不能被确定为进行业务处理的第二客户端时,该第一客户端可以向部分其他客户端发送继续获取资源利用信息的请求信息,该部分其他客户端可以为一个客户端,或者几个客户端等,全部客户端可以为该每个其他客户端。
实施例四:
为了减小占用的客户端的内存资源,并提高客户端进行数据分片处理的效率,在本发明实施中第一客户端可以只保存MR系统中部分其他客户端的标识信息,该部分其他客户端的标识信息可以为与第一客户端位置邻近的其他客户端的标识信息。当第一客户端确定进行业务处理的第二客户端时包括:第一客户端根据保存的MR系统中部分其他客户端的标识信息,向其中的一个其他客户端发送获取资源利用信息的请求信息,接收到该获取资源利用信息的请求信息的该一个其他客户端向第一客户端返回自身的资源利用信息,其中该资源利用信息中包含客户端的标识信息,第一客户端根据该一个其他客户端返回的资源利用信息,确定该一个其他客户端是否为进行业务处理的第二客户端。
其中,确定该一个其他客户端是否为进行业务处理的第二客户端包括:判断该一个其他客户端的资源利用信息是否小于设置的阈值,当该一个其他客户端的资源利用信息小于设置的阈值时,则确定该一个其他客户端为进行业务处理的第二客户端。当该一个其他客户端的资源利用信息大于设置的阈值时,则该第一客户端根据保存的MR系统中每个其他客户端的标识信息,向其中另一其他客户端发送获取资源利用信息的请求信息,并接收该另一其他客户端返回的资源利用信息,继而确定该另一其他客户端是否为进行业务处理的第二客户端,上述方法反复,直到确定了可以进行业务处理的第二客户端为止。
当该第一客户端保存的MR系统中的部分其他客户端都不能被确定为进行业务处理的第二客户端时,由于每个第一客户端保存的部分其他客户端的标识信息都不可能完全相同,因此在本发明实施例中,该第一客户端根据保存的MR系统中的其他客户端的标识信息,向该其他客户端的部分或全部发送继续获取资源利用信息的请求信息,指示该部分或全部其他客户端根据自身保存的其他客户端的标识信息,继续获取资源利用信息,从而确定进行业务处理的第二客户端。
在实施例三以及实施例四中当第一客户端根据保存的MR系统中其他客户端的标识信息,向其他客户端中的部分发送继续获取资源利用信息的请求信息时,例如第一客户端依次向其中的一个其他客户端发送继续获取资源利用信息的请求信息时,该一个其他客户端接收到该继续获取资源利用信息的请求信息后,根据自身保存的其他客户端的标识信息,向自身保存的一个其他客户端发送获取资源利用信息的请求信息,该自身保存的一个其他客户端将资源利用信息返回一个其他客户端,该一个其他客户端可以将返回的资源利用信息返回第一客户端。第一客户端根据接收的该资源利用信息,确定是否将该一个其他客户端自身保存的该一个其他客户端为进行业务处理的第二客户端。
当确定该一个部分其他客户端自身保存的一个其他客户端为进行业务处理的第二客户端时,则第一客户端向该一个其他客户端发送确认通知信息,则该一个其他客户端将该确认通知信息发送到其自身保存的一个其他客户端,指示其自身保存的一个其他客户端进行业务处理。
当确定该一个其他客户端自身保存的一个其他客户端非进行业务处理的第二客户端时,则第一客户端向该一个其他客户端发送继续获取资源利用信息的请求信息,该一个其他客户端根据自身保存的其他客户端的标识信息,向自身保存的其他客户端中的另一个其他客户端发送获取资源利用信息的请求信息,使第一客户端根据该一个其他客户端自身保存的另一其他客户端返回的资源利用信息,确定该一个其他客户端的自身保存的另一其他客户端是否为进行业务处理的第二客户端,针对该一个其他客户端自身保存的每个其他客户端的信息,依次采用上述方法,直至确定了进行业务处理的第二客户端为止。
当第一客户端根据该一个其他客户端自身保存的其他客户端的标识信息,不能确定进行业务处理的第二客户端时,第一客户端根据保存的其他客户端的信息,依次向每个其他客户端发送继续获取资源利用信息的请求信息,直至确定了进行业务处理的第二客户端,其中每个其他客户端根据自身保存的其他客户端的标识信息,获取资源利用信息的过程与上述实施过程类似,在这里就不一一赘述。
在实施例三以及实施例四中当第一客户端根据保存的MR系统中其他客户端的标识信息,向其他客户端中的全部发送继续获取资源利用信息的请求信息时,第一客户端根据该每个其他客户端的标识信息,向每个其他客户端发送继续获取资源利用信息的请求信息,针对每个接收到该继续获取资源利用信息的请求信息的其他客户端,该其他客户端根据自身保存的其他客户端的标识信息,向其中部分或全部其他客户端发送获取资源利用信息的请求信息,并将自身保存的其他客户端返回的资源利用信息返回第一客户端,第二客户端根据每个其他客户端返回的资源利用信息,确定进行业务处理的第二客户端。
并且上述各实施过程可以相互交叉进行,例如当客户端根据保存的部分其他客户端的标识信息,向该部分其他客户端中的每个客户端发送获取资源利用信息的请求信息时,根据每个其他客户端返回的资源利用信息,确定该每个其他客户端都不能进行业务处理时,则该客户端可以根据保存的其他客户端的标识信息,向其中一个其他客户端发送继续获取资源利用信息的请求信息,该其中一个客户端可以根据自身保存的其他客户端的标识信息,向自身保存的每个其他客户端发送获取资源利用信息的请求信息,或向其中的一个其他客户端发送获取资源利用信息的请求信息。即上述各个实施过程可以根据需要灵活的组合,在这里就不一一赘述相信本领域技术人员可以根据本发明实施例公开的具体实施方式进行任意的组合。
第一客户端确定了进行业务处理的第二客户端后,当该第二客户端对待处理的数据进行数据分片处理完后,该进行业务处理的第二客户端将用户发送的业务处理指示信息发送到主节点,指示主节点根据该业务处理信指示信息,将分片处理后的数据进行业务处理类型的划分,即将该分片后的数据划分为进行映射处理,或进行化简处理。当工作节点向主节点请求任务时,该主节点将任务调度到该工作节点,采用该工作节点对该数据采用对应的业务处理类型进行处理,即对数据进行映射处理,或化简处理。
当用户需要查询业务的处理状态时,用户向第一客户端发送业务状态查询请求,其中业务状态查询请求中包括该业务的属性信息,例如业务发送的时间,业务的标识信息等。第一客户端将接收的业务状态查询请求发送到主节点,主节点根据业务处理的状况,及业务状态查询请求中包含的业务的属性信息,将包含该业务状态信息的查询结果反馈给第一客户端,第一客户端管理将该查询结果返回用户,使用户获知业务的处理状态。
图5为本发明实施例提供的一种MR系统中的任务分配系统的结构示意图,该系统包括:
客户端管理节点51,用于接收数据分片任务,根据各客户端的资源利用信息,确定进行数据分片处理的客户端,将所述数据分片任务中的待处理数据分配给确定的所述客户端,指示确定的所述客户端对待处理的数据进行数据分片处理;
客户端52,用于接收所述客户端管理节点分配的对待处理数据进行分片处理的任务,并对所述待处理的数据进行数据分片处理。
图6为本发明实施例提供的一种MR系统中的任务分配装置的结构示意图,该装置包括:
接收模块61,用于接收数据分片任务;
确定模块62,用于根据各客户端的资源利用信息,确定进行数据分片处理的客户端;
分配模块63,用于将所述数据分片任务中的待处理数据分配给确定的所述客户端,指示确定的所述客户端对待处理的数据进行数据分片处理。
所述确定模块62包括:
第一获取单元621,用于根据保存的与其连接的各客户端的标识信息,向所述各客户端发送获取资源利用信息的请求信息,接收并保存所述各客户端返回的资源利用信息。
所述确定模块62包括:
第二获取单元622,用于接收并保存与其连接的各客户端按照设置的上报周期,上报的资源利用信息。
所述装置中,
所述接收模块61,还用于接收确定的所述客户端发送的通知信息,所述通知信息用于通知装置,确定的所述客户端对所述待处理的数据分片处理完成。
所述装置还包括:
通知模块64,用于将接收模块接收的业务处理指示信息发送到主节点,指示所述主节点根据所述业务处理指示信息,将分片处理后的数据进行业务处理类型的划分,并将划分后的数据调度到的工作节点上,指示工作节点采用对应的工作处理类型处理。
所述装置中,
所述接收模块61,还用于接收用户发送的业务状态查询请求;
所述通知模块64,还用于将所述业务状态查询请求发送到所述主节点,并接收主节点反馈的查询结果;
发送模块65,用于将所述查询结果返回所述用户。
图7为本发明实施例提供的一种MR系统中的任务分配系统的结构示意图,该系统包括:
第一客户端71,用于接收用户发送的待处理的数据,判断自身的资源利用信息是否满足预设条件,当自身的资源利用信息不满足预设条件时,所述第一客户端根据保存的其他客户端的资源利用信息,确定进行数据分片处理的第二客户端,指示所述第二客户端对所述待处理的数据进行数据分片处理;
第二客户端72,用于对所述待处理的数据进行数据分片处理。
图8为本发明实施例提供的一种MR系统中的任务分配装置的结构示意图,该装置包括:
接收判断模块81,用于接收用户发送的待处理的数据,判断自身的资源利用信息是否满足预设条件;
确定模块82,用于在自身的资源利用信息不满足预设条件时,根据保存的其他客户端的资源利用信息,确定进行数据分片处理的第二客户端,指示所述第二客户端对所述待处理的数据进行数据分片处理。
所述确定模块82包括:
存储单元821,用于保存其他客户端中每个其他客户端的标识信息;
确定单元822,用于根据存储单元保存的其他客户端中每个其他客户端的标识信息,向其他客户端中的其他客户端发送获取资源利用信息的请求信息,接收并保存所述其他客户端返回的资源利用信息。
所述装置中,
所述接收判断模块81,还用于接收用户发送的业务状态查询请求;
发送模块83,用于将所述业务状态查询请求发送到所述主节点,并接收主节点反馈的查询结果,并将所述查询结果返回所述用户。
本发明实施例提供了一种MR系统中任务分配的方法、系统及装置,通过在原有MR系统中增加对各个客户端进行管理的客户端管理节点,客户端管理节点根据各客户端的资源利用信息,确定进行数据分片处理的客户端,并指示该确定的客户端进行对待处理的数据进行数据分片处理。由于在本发明实施例中客户端管理节点根据各客户端的资源利用信息,确定进行数据分片处理的客户端,从而可以减小资源利用信息不满足条件的客户端进行业务处理的风险,并减小该客户端出现宕机的可能性,进而提高了MR系统的可靠性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种映射化简MapReduce系统中的任务分配方法,其特征在于,所述方法包括:
第一客户端接收用户发送的待处理的数据,判断自身的资源利用信息是否满足预设条件;其中,判断自身的资源利用信息是否满足预设条件具体包括:判断所述第一客户端的资源利用信息是否低于设定的阈值;当所述第一客户端的资源利用信息低于设定的阈值时,则满足预设条件;当所述第一客户端的资源利用信息高于设定的阈值时,则不满足预设条件;
当所述第一客户端的资源利用信息不满足预设条件时,所述第一客户端根据保存的其他客户端的资源利用信息,确定进行数据分片处理的第二客户端,指示所述第二客户端对所述待处理的数据进行数据分片处理。
2.如权利要求1所述的方法,其特征在于,所述第一客户端通过以下方式获取其他客户端的资源利用信息:
所述第一客户端根据保存的其他客户端中每个其他客户端的标识信息,向其他客户端中的其他客户端发送获取资源利用信息的请求信息,接收并保存所述其他客户端返回的资源利用信息。
3.如权利要求1所述的方法,其特征在于,所述方法进一步包括:
所述第二客户端在对待处理的数据分片处理完成后,向主节点发送业务处理指示信息,指示所述主节点根据所述业务处理指示信息,将分片处理后的数据进行业务处理类型的划分,并将划分后的数据调度到工作节点上,指示工作节点采用对应的工作处理类型处理。
4.如权利要求3所述的方法,其特征在于,所述方法进一步包括:
所述第一客户端接收用户发送的业务状态查询请求;
所述第一客户端将所述业务状态查询请求发送到所述主节点,并接收主节点反馈的查询结果;
所述第一客户端将所述查询结果返回所述用户。
5.一种映射化简MapReduce系统中的任务分配系统,其特征在于,所述系统包括:
第一客户端,用于接收用户发送的待处理的数据,判断自身的资源利用信息是否满足预设条件,当自身的资源利用信息不满足预设条件时,所述第一客户端根据保存的其他客户端的资源利用信息,确定进行数据分片处理的第二客户端,指示所述第二客户端对所述待处理的数据进行数据分片处理;
第二客户端,用于对所述待处理的数据进行数据分片处理;
所述第一客户端,具体用于:
判断所述第一客户端的资源利用信息是否低于设定的阈值;当所述第一客户端的资源利用信息低于设定的阈值时,则满足预设条件;当所述第一客户端的资源利用信息高于设定的阈值时,则不满足预设条件。
6.一种映射化简MapReduce系统中的任务分配装置,其特征在于,所述装置包括:
接收判断模块,用于接收用户发送的待处理的数据,判断自身的资源利用信息是否满足预设条件;
确定模块,用于在自身的资源利用信息不满足预设条件时,根据保存的其他客户端的资源利用信息,确定进行数据分片处理的第二客户端,指示所述第二客户端对所述待处理的数据进行数据分片处理;
其中,所述接收判断模块,具体用于:
判断自身的资源利用信息是否低于设定的阈值;当自身的资源利用信息低于设定的阈值时,则满足预设条件;当自身的资源利用信息高于设定的阈值时,则不满足预设条件。
7.如权利要求6所述的装置,其特征在于,所述确定模块包括:
存储单元,用于保存其他客户端中每个其他客户端的标识信息;
确定单元,用于根据存储单元保存的其他客户端中每个其他客户端的标识信息,向其他客户端中的其他客户端发送获取资源利用信息的请求信息,接收并保存所述其他客户端返回的资源利用信息。
8.如权利要求6所述的装置,其特征在于,所述装置中,
所述接收判断模块,还用于接收用户发送的业务状态查询请求;
发送模块,用于将所述业务状态查询请求发送到主节点,并接收主节点反馈的查询结果,并将所述查询结果返回所述用户。
CN201010178143.3A 2010-05-17 2010-05-17 MapReduce系统中的任务分配方法、系统及装置 Expired - Fee Related CN102255926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010178143.3A CN102255926B (zh) 2010-05-17 2010-05-17 MapReduce系统中的任务分配方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010178143.3A CN102255926B (zh) 2010-05-17 2010-05-17 MapReduce系统中的任务分配方法、系统及装置

Publications (2)

Publication Number Publication Date
CN102255926A CN102255926A (zh) 2011-11-23
CN102255926B true CN102255926B (zh) 2015-11-25

Family

ID=44982921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010178143.3A Expired - Fee Related CN102255926B (zh) 2010-05-17 2010-05-17 MapReduce系统中的任务分配方法、系统及装置

Country Status (1)

Country Link
CN (1) CN102255926B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591940B (zh) * 2011-12-27 2013-09-25 厦门市美亚柏科信息股份有限公司 一种基于Map/Reduce的快速支持向量数据描述方法及系统
CN102426609B (zh) * 2011-12-28 2013-02-13 厦门市美亚柏科信息股份有限公司 一种基于MapReduce编程架构的索引生成方法和装置
CN103246550A (zh) * 2012-02-09 2013-08-14 深圳市腾讯计算机系统有限公司 一种基于容量的多任务调度方法及系统
CN102638566B (zh) * 2012-02-28 2015-03-04 山东大学 一种基于云存储的blog系统运行方法
CN102638456B (zh) * 2012-03-19 2015-09-23 杭州海康威视数字技术股份有限公司 基于云计算的海量实时视频码流智能分析方法及其系统
CN103810045B (zh) * 2012-11-09 2016-12-21 阿里巴巴集团控股有限公司 资源分配方法、资源管理器、资源服务器及系统
CN105205058B (zh) * 2014-06-10 2019-03-12 北京畅游天下网络技术有限公司 数据处理系统和方法
CN105868008B (zh) * 2016-03-23 2019-05-28 深圳大学 基于关键资源和数据预处理的资源调度方法及识别系统
CN108667864B (zh) * 2017-03-29 2020-07-28 华为技术有限公司 一种进行资源调度的方法和装置
CN107688496B (zh) * 2017-07-24 2020-12-04 深圳壹账通智能科技有限公司 任务分布式处理方法、装置、存储介质和服务器
CN110231991B (zh) * 2019-05-31 2022-03-08 新华三大数据技术有限公司 一种任务分配方法、装置、电子设备及可读存储介质
CN112596895B (zh) * 2020-12-02 2023-09-12 中国科学院计算技术研究所 一种sql语义感知的弹性倾斜处理方法及系统
CN113535432B (zh) * 2021-07-20 2023-12-15 西安力传智能技术有限公司 数据分流方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1495634A (zh) * 2002-06-27 2004-05-12 上海汉唐科技有限公司 服务器集群负载均衡方法及系统
CN1791113A (zh) * 2005-12-26 2006-06-21 北京航空航天大学 均衡网格负载的方法
CN1996881A (zh) * 2006-12-19 2007-07-11 华为技术有限公司 媒体资源分配的方法、装置和系统
CN101183368A (zh) * 2007-12-06 2008-05-21 华南理工大学 联机分析处理中分布式计算及查询海量数据的方法和系统
CN101340331A (zh) * 2007-07-06 2009-01-07 中国电信股份有限公司 P2p网络中利用空闲终端执行系统任务的方法
CN101365119A (zh) * 2008-09-25 2009-02-11 北京中星微电子有限公司 用于网络视频监控系统所使用的录像负载均衡方法
CN101635647A (zh) * 2009-08-21 2010-01-27 华为技术有限公司 一种实现单板并行加载的方法、装置和网元

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1495634A (zh) * 2002-06-27 2004-05-12 上海汉唐科技有限公司 服务器集群负载均衡方法及系统
CN1791113A (zh) * 2005-12-26 2006-06-21 北京航空航天大学 均衡网格负载的方法
CN1996881A (zh) * 2006-12-19 2007-07-11 华为技术有限公司 媒体资源分配的方法、装置和系统
CN101340331A (zh) * 2007-07-06 2009-01-07 中国电信股份有限公司 P2p网络中利用空闲终端执行系统任务的方法
CN101183368A (zh) * 2007-12-06 2008-05-21 华南理工大学 联机分析处理中分布式计算及查询海量数据的方法和系统
CN101365119A (zh) * 2008-09-25 2009-02-11 北京中星微电子有限公司 用于网络视频监控系统所使用的录像负载均衡方法
CN101635647A (zh) * 2009-08-21 2010-01-27 华为技术有限公司 一种实现单板并行加载的方法、装置和网元

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Data Distribution Aware Task Scheduling Strategy for MapReduce System;Guo, LT,ET AL;《CLOUD COMPUTING, PROCEEDINGS》;20091204;第5931卷;第694-699页 *
一种并行XML数据库分片策略;王国仁,等;《软件学报》;20060430;第17卷(第4期);第770-780页 *

Also Published As

Publication number Publication date
CN102255926A (zh) 2011-11-23

Similar Documents

Publication Publication Date Title
CN102255926B (zh) MapReduce系统中的任务分配方法、系统及装置
WO2018149221A1 (zh) 一种设备管理方法及网管系统
CN105373429A (zh) 任务调度方法、装置及系统
CN103377092A (zh) 用于动态资源管理的两级动态资源管理方法和装置
CN107005452B (zh) 一种网络功能虚拟化资源处理方法及虚拟网络功能管理器
CN103366022B (zh) 信息处理系统及其处理方法
CN104735095A (zh) 一种云计算平台作业调度方法及装置
CN104243405A (zh) 一种请求处理方法、装置及系统
CN105446813A (zh) 一种资源分配的方法及装置
CN105407413A (zh) 一种分布式视频转码方法及相关设备、系统
CN111176840B (zh) 分布式任务的分配优化方法和装置、存储介质及电子装置
CN104426694A (zh) 一种调整虚拟机资源的方法和装置
CN114155026A (zh) 一种资源分配方法、装置、服务器及存储介质
CN112905342A (zh) 资源调度方法、装置、设备及计算机可读存储介质
CN108319509B (zh) 一种事件管理方法、系统及主控设备
CN112416969A (zh) 分布式数据库中的并行任务调度系统
CN112860387A (zh) 分布式任务调度方法、装置、计算机设备及存储介质
EP2439881A1 (en) Cluster system and request message distribution method for processing multi-node transaction
CN110366194B (zh) 资源调用方法、装置及系统
CN112749012A (zh) 终端设备的数据处理方法、装置、系统及存储介质
CN110209475B (zh) 数据采集方法及装置
CN113822485B (zh) 一种配电网调度任务优化方法及系统
CN112202614B (zh) 系统间的通信方法及装置
CN114840344A (zh) 基于kubernetes的GPU设备资源分配方法及系统
CN105657831B (zh) 基带资源管理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151125