CN103078941B

CN103078941B - 一种分布式计算系统的任务调度方法

Info

Publication number: CN103078941B
Application number: CN201210593388.1A
Authority: CN
Inventors: 岳洋; 钮毅
Original assignee: CENTRIN DATA SYSTEMS CO LTD
Current assignee: Cicc Digital Valley Technology Co ltd
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2016-01-20
Anticipated expiration: 2032-12-31
Also published as: CN103078941A

Abstract

本发明涉及一种分布式计算系统的任务调度方法及系统，其中所述方法包括如下步骤：①将分布式计算系统集群中节点设置主节点和工作节点；②主节点将输入文件分成多个数据段；③主节点为工作节点分配数据段和任务，主节点从中提取出初始键值对并处理生成中间键值对，存储至公共区域；④主节点判断所有数据段的处理是否完成，若是则执行⑤，若否则执行③；⑤将中间键值对分成多个区并排序；⑥最后完成数据段处理的工作节点对中间键值对进行处理，将最终结果存储到所属区；⑦返回。本发明所述的分布式计算系统的任务调度方法及系统，负责分配任务的主节点仅负责分配任务，最后汇总计算处理结果由工作节点来完成，从而减轻在化简阶段的系统瓶颈问题。

Description

一种分布式计算系统的任务调度方法

技术领域

本发明涉及云计算技术领域，具体涉及一种分布式计算系统的任务调度方法。

背景技术

在云计算领域，当前主流的计算模型是谷歌公司提出的MapReduce模型以及对其改进形成的模型。对一般用户来说，MapReduce模型是一种编程范例，按照MapReduce编程范例写的程序可以并行运行在集群中的多个计算机节点上；对云服务提供商来说，MapReduce是一种用来构建云计算环境的架构，用MapReduce来组织多个计算机节点来组成大型集群运行MapReduce程序。MapReduce把整个作业按数据量大小划分成多个子任务，上述多个子任务在集群中的计算机节点中并行运行。

在MapReduce模型中，一个MapReduce作业(Job)被划分成多个任务(Task)，并分配到集群中的节点上进行处理，划分方法由用户指定，作业分为映射(Map)阶段和化简(Reduce)阶段进行处理，两个阶段输入和输出都为Key/Value形式的数据模型，每个节点会周期性的把完成的工作、状态和更新报告发送给主节点。

在调用MapReduce后，用户程序处于等待状态。一个MapReduce的实际运行流程如下：T1.分布式计算系统集群中的节点设置为主节点和工作节点，主节点首先调用自定义的映射函数（Map函数），将待处理的输入文件分成M个数据片段，每个数据片段的大小一般从16MB到64MB（用户可以控制每个数据片段的大小），然后，主节点将MapReduce作业（Job）划分成多个子任务，并将多个子任务的副本复制到工作节点上；T2.工作节点空闲时会向主节点发送该节点处于空闲状态信息，主节点根据空闲节点空闲状态负责给该空闲工作节点分配任务，主节点在分配任务之前，首先根据数据片段的数量M得到M个Map子任务和R个Reduce子任务，然后，主节点根据空闲的工作节点的请求将所有Map子任务和所有Reduce子任务分配给空闲的工作节点，直到所有Map子任务和所有Reduce子任务都被分配完；T3.被分配了Map子任务的工作节点从主节点上读取对应的一个输入数据片段，从输入的数据片段中提取出关于key和value的初始键值对，然后把所述初始键值对传递给用户自定义的映射函数（Map函数），由Map函数生成并输出中间键值对，并存储在该工作节点的本地磁盘中中；T4.将该工作节点的本地磁盘中的中间键值对分成R个区域，所谓将中间键值对分成R个区域，相当于将所述中间键值对封装成R个任务包，以便于Reduce进行处理，一个Reduce子任务用来处理一个区域中的所述中间键值对，将中间键值对在本地磁盘上的存储位置数据回传给主节点，由主节点负责把这些存储位置数据再传送给处理Reduce子任务的工作节点；T5.当处理Reduce子任务的工作节点接收到Master发来的存储位置数据后，通过远程过程调用协议（RemoteProcedureCallProtocol,缩写为RPC）从处理Map的工作节点的本地磁盘上读取中间键值对，当处理Reduce子任务的工作节点读取了所有的中间键值对后，对key进行排序，使得具有相同key值的数据排列在一起；T6.处理Reduce子任务的工作节点对排序后的中间键值对进行进一步处理，处理Reduce子任务的工作节点将每个key值和与它相关的value值集合传递给用户自定义的Reduce函数得到输出结果，属于一个分区的多个键值对对应的多个输出结果形成输出文件并存储在相应的工作节点上；T7.当所有的Map子任务和Reduce子任务都完成之后，主节点唤醒用户程序，用户程序结束对MapReduce的调用并返回。其流程图如图1所示。

从上述对MapReduce计算模型和运行实例的描述可以看出，在它的计算流程中，特别是最后对结果进行汇总计算的Reduce环节，要对几十或者上百甚至上千节点的计算结果进行汇总计算，计算量很大，而这个压力集中在主节点上，而主节点同时还要承担繁重的任务分发工作，容易形成系统瓶颈，也带来系统的单点失效风险性较大。

发明内容

本发明所要解决的一个技术问题是现有技术的MapReduce计算模型中，任务分发和最后结果汇总时的计算量集中在主节点上，主节点压力很大，易形成系统瓶颈，也容易带来系统单点失效的风险性较大的技术问题，从而提供一种能够分散主节点计算压力的分布式计算系统的任务调度方法及系统。

为解决上述技术问题，本发明采用的技术方案如下：

一种分布式计算系统的任务调度方法，所述分布式计算系统的集群中的节点包括一个主节点和多个工作节点，其中所述主节点用于为所述多个工作节点进行任务调度，包括如下步骤：

S1，用户程序启动MapReduce程序，同时用户程序进入休眠状态；主节点获取输入文件，主节点发出执行处理输入文件的请求，所述分布式计算系统对所述请求做出响应，并将所述输入文件分成多个数据段，主节点根据所述数据段数目生成多个Map子任务，并将所述Map子任务的副本复制到各个工作节点上，其中，每个所述Map子任务用于执行处理一个所述数据段的请求；同时，所述主节点按照用户程序逻辑设定一个或多个Reduce子任务，并将所述Reduce子任务的副本复制到所述各个工作节点上；

S2，集群中的工作节点将空闲状态周期性地发送给所述主节点，主节点根据所述工作节点的空闲状态将所述数据段分配给所述工作节点，直到所有数据段均分配完毕，所述工作节点从所述数据段中提取出关于Key和Value的初始键值对，将所述初始键值对传递给Map子任务，由所述Map子任务进行处理，生成中间键值对，输出所述中间键值对至公共区域中，其中，所述公共区域为所述分布式计算系统中的一个目录，由所述用户程序在启动MapReduce程序时指定；

S3，所述工作节点完成一个Map子任务后向所述主节点发出处理完成Map子任务的报告，主节点判断所有数据段的处理是否完成，若是，则执行步聚S4；若否，则返回执行步骤S3；

S4，标记最后完成数据段处理的工作节点，将处于公共区域的多个所述中间键值对分成多个区，调取Reduce子任务，每个Reduce子任务对一个区中的中间键值按照Key进行排序，并将排序后的中间键值对周期性地写入所述分布式计算系统的公共区域；

S5，最后完成数据段处理的工作节点获取所述公共区域的中间键值对，再次调取Reduce子任务对各个区的所述中间键值对进行处理，并将处理后得到的结果存储到所属区作为最终结果；

S6，主节点唤醒用户程序，用户程序结束对MapReduce的调用并返回。在所述步骤S4中，还包括步骤S401：

S401，判断所述中间键值对的数量是否大于所述分布式计算系统配置的用于执行任务的各工作节点内存空间限额，若否，则对中间键值对的排序使用工作节点的内存空间进行排序；若是，则使用工作节点的除内存外的本地磁盘空间进行排序。

本发明还涉及一种分布式计算系统的任务调度系统，包括启动装置、分配装置、判断装置、分区装置、获取装置和唤醒装置；其中，

所述启动装置，用于用户程序启动MapReduce程序，同时用户程序进入休眠状态；主节点获取输入文件，主节点发出执行处理输入文件的请求，所述分布式计算系统对所述请求做出响应，并将所述输入文件分成多个数据段，主节点根据所述数据段数目生成多个Map子任务，并将所述Map子任务的副本复制到各个工作节点上，其中，每个所述Map子任务用于执行处理一个所述数据段的请求；同时，所述主节点设定多个Reduce子任务，并将所述Reduce子任务的副本复制到所述各个工作节点上；

所述分配装置，主节点根据所述工作节点的空闲状态将所述数据段分配给所述工作节点，直到所有数据段均分配完毕，所述工作节点从所述数据段中提取出关于Key和Value的初始键值对，将所述初始键值对传递给Map子任务，由所述Map子任务进行处理，生成中间键值对，输出所述中间键值对至公共区域中，其中，所述公共区域为所述分布式计算系统中的一个目录，由所述用户程序在启动MapReduce程序时指定；

所述判断装置，用于工作节点完成一个Map子任务后向所述主节点发出处理完成Map子任务的报告，主节点判断所有数据段的处理是否完成，若是，则进入分区装置，标识最后完成数据段处理的工作节点；若否，则主节点继续等待工作节点完成Map子任务，并发出处理完成Map子任务的报告；

所述分区装置，用于标记最后完成数据段处理的工作节点，将处于公共区域的多个所述中间键值对分成多个区，调取Reduce子任务，每个Reduce子任务对一个区中的中间键值按照Key进行排序，并将排序后的中间键值对周期性地写入所述分布式计算系统的公共区域；

所述获取装置，用于最后完成数据段处理的工作节点获取所述公共区域的中间键值对，再次调取Reduce子任务对各个区的所述中间键值对进行处理，并将处理后得到的结果存储到所属区作为最终结果；

所述唤醒装置，用于主节点唤醒用户程序，用户程序结束对MapReduce的调用并返回。

所述分区装置还包括判断子装置；其中，

所述判断子装置，用于判断所述中间键值对的数量是否大于系统配置的任务内存空间限额，若否，则对中间键值对的排序使用工作节点的内存空间进行排序；若是，则使用工作节点的除内存外的本地磁盘空间进行排序。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的分布式计算系统的任务调度方法及系统，在MapReduce计算模型中，将输入文件分成多个数据段，在分布式计算系统中，主节点在各个工作节点上创建多个Map子任务和多个Reduce子任务的副本，将数据段分配给各个工作节点，使所述多个工作节点对所述多个数据段进行处理，以提高文件处理的效率；在多个数据段处理完成后，将不同数据段的处理结果再进行化简，本发明中，负责分配任务的主节点仅负责分配任务，最后汇总计算处理结果的工作由其他工作节点来完成，从而减轻在化简阶段的系统瓶颈问题，并且通过节点间通信，实现MapReduce流程中各子节点的自管理。

本发明所述的分布式计算系统的任务调度方法与系统中，分布式计算系统集群中主节点所获取的输入文件可能比较大，各工作节点运算量较大，在公共区域将中间键值对排序时，仅用内存空间排序，可能无法执行运算，因为本发明方法中，在判断数据量较大时，使用外部空间排序，以保证各工作节点能够正常的执行任务。

本发明所述的的任务调度方法与系统，所述分布式计算系统设置有公共区域，集群中的各节点均可访问所述公共区域，以获取各节点较常用的数据，减轻由单一节点存储数据造成单一节点负载过重而影响系统工作效率。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1为现有技术中的分布式计算系统的任务调度方法的一个MapReduce实际运行流程图；

图2为本发明的分布式计算系统的任务调度方法的实施例一的流程图；

图3为本发明的分布式计算系统的任务调度系统的实施例二的结构示意图。

具体实施方式

实施例一：

如图2所示，一种分布式计算系统的任务调度方法，所述分布式计算系统集群中的节点包括一个主节点和多个工作节点，其中所述主节点用于为所述多个工作节点进行任务调度，具体包括如下步骤：

S1，用户程序启动MapReduce程序，同时用户程序进入休眠状态；主节点获取输入文件，主节点发出执行处理输入文件的请求，所述分布式计算系统对所述请求做出响应，并将所述输入文件分成多个数据段，主节点基于MapReduce模型根据所述数据段数目生成多个Map子任务，并将所述Map子任务的副本复制到各个工作节点上，其中，每个所述Map子任务用于执行处理一个所述数据段的请求；同时，所述主节点按照用户程序逻辑设定一个或多个Reduce子任务，并将所述Reduce子任务的副本复制到所述各个工作节点上。

所述用户程序在调用MapReduce程序时，将所述Reduce子任务的数目的确定条件传递给所述MapReduce程序，所述MapReduce程序在执行时根据用户程序所设定的业务逻辑来设定Reduce子任务的数目，通常情况下，所述Reduce子任务的数目小于所述Map子任务的数目。

在本实施例中，所述输入文件为类似结构化数据形式的文本文件，所述输入文件以二维表格形式输入。所述输入文件分成M个数据段，一个数据段即为二维表格的若干行，根据数据段的数目生成多个Map子任务，所述Map子任务的数量也是M个，与数据段的数目保持一致，同时，所述主节点按照用户程序逻辑设定一个或多个Reduce子任务，所述Reduce子任务数目为R个，R的数值不能太大或太小，约为1/3M-1/2M个，M为大于等于2的自然数，R为大于等于2的自然数。

在本发明的分布式计算系统的任务调度方法中，所述Map子任务和所述Reduce子任务均由多组业务逻辑组成。

S2，集群中的工作节点将空闲状态周期性地发送给所述主节点，主节点根据所述工作节点的空闲状态将所述数据段分配给所述工作节点，直到所有数据段均分配完毕，所述工作节点从所述数据段中提取出关于Key和Value的初始键值对，将所述初始键值对传递给Map子任务，由所述Map子任务进行处理，生成中间键值对，输出所述中间键值对至公共区域中。

其中，所述公共区域为所述分布式计算系统中的一个目录，由所述用户程序在启动MapReduce程序时指定，在完成对所述MapReduce程序的调用后，集群中各个节点可以访问所述公共区域来获取数据。

本领域技术人员应该可以理解，所述输入文件为类似结构化数据形式的文本文件，所述输入文件以二维表格形式输入。在读取所述数据段时，根据用户程序设定的业务逻辑，默认每一行的第一个字段为Key，第二个字段为Value。从而所述工作节点从所述数据段中提取出关于Key和Value的初始键值对，所述Map子任务和所述Reduce子任务的输入、输出均为关于Key和Value的键值对形式的数据。

S3，所述工作节点完成一个Map子任务后向所述主节点发出处理完成Map子任务的报告，主节点判断所有数据段的处理是否完成，若是，则执行步聚S4；若否，则返回执行步骤S3。

在本实施例中，所述工作节点每完成一个Map子任务，就向所述主节点发送一次处理完成Map子任务的报告，作为一种可替代方案，由于一个工作节点可能被分配多个Map子任务，也可以待该工作节点处理完成被分配的所有Map子任务后，再向主节点发送处理完成Map子任务的报告。主节点判断所有数据段的处理是否完成，以便确定最后完成数据段处理的工作节点。

S4，标记最后完成数据段处理的工作节点，将处于公共区域的多个所述中间键值对分成多个区，调取Reduce子任务，每个Reduce子任务对一个区中的中间键值按照Key进行排序，判断所述中间键值对的数量是否大于所述分布式计算系统配置的用于执行任务的各工作节点内存空间限额，若否，则对中间键值对的排序使用工作节点的内存空间进行排序；若是，则使用工作节点的除内存外的本地磁盘空间进行排序，并将排序后的中间键值对周期性地写入所述分布式计算系统的公共区域。

将多个所述中间键值对分成多个区，即将所述中间键值对分成多个任务包，以供所述Reduce子任务对其进行处理。所述区的数目与所述Reduce子任务的数目相一致，在本实施例中都为R个，一个Reduce子任务对应一个区。

S5，最后完成数据段处理的工作节点获取所述公共区域的中间键值对，再次调取Reduce子任务对各个区的所述中间键值对进行处理，并将处理后得到的结果存储到所属区作为最终结果。

在现有技术中，由主节点负责分配任务，并对排序后的中间键值对进行处理，使得主节点的工作量过大，容易造成系统瓶颈，在本实施例中，由主节点负责分配任务，由所述最后完成数据段处理的工作节点对所述公共区域的排序后的中间键值对进行处理，减轻了所述主节点的工作量，减小了发生系统瓶颈的风险。

S6，主节点唤醒用户程序，用户程序结束对MapReduce的调用并返回。

用户程序完成一次对MapReduce的调用后，根据主节点的唤醒请求，返回用户程序，继续执行用户程序。所述用户程序可以在其下面程序执行过程中，随时调用公共区域中的最终结果。

本发明所述的分布式计算系统的任务调度方法，在用户程序执行过程中，调用MapReduce计算模型，首先将输入文件分成多个数据段，在分布式计算系统主节点在各个工作节点上创建多个Map子任务和Reduce子任务的副本，将所述数据段分配给各个工作节点，使所述多个节点对所述多个数据段进行处理，以提高文件处理的效率；本发明中，负责分配任务的主节点仅负责分配任务，最后汇总计算处理结果的工作由最后完成数据段处理的工作节点来完成，从而减轻在化简阶段的系统瓶颈问题。

实施例二：

如图3所示，基于同一发明构思，本发明还提供一种分布式计算系统的任务调度系统，包括启动装置Q1、分配装置Q2、判断装置Q3、分区装置Q4、获取装置Q5和唤醒装置Q6；

其中，

所述启动装置Q1，用于用户程序启动MapReduce程序，同时用户程序进入休眠状态；主节点获取输入文件，主节点发出执行处理输入文件的请求，所述分布式计算系统对所述请求做出响应，并将所述输入文件分成多个数据段，主节点根据所述数据段数目生成多个Map子任务，并将所述Map子任务的副本复制到各个工作节点上，其中，每个所述Map子任务用于执行处理一个所述数据段的请求；同时，所述主节点设定多个Reduce子任务，并将所述Reduce子任务的副本复制到所述各个工作节点上；

所述分配装置Q2，主节点根据所述工作节点的空闲状态将所述数据段分配给所述工作节点，直到所有数据段均分配完毕，所述工作节点从所述数据段中提取出关于Key和Value的初始键值对，将所述初始键值对传递给Map子任务，由所述Map子任务进行处理，生成中间键值对，输出所述中间键值对至公共区域中，其中，所述公共区域为所述分布式计算系统中的一个目录，由所述用户程序在启动MapReduce程序时指定；

所述判断装置Q3，用于工作节点完成一个Map子任务后向所述主节点发出处理完成Map子任务的报告，主节点判断所有数据段的处理是否完成，若是，则进入分区装置Q4，标识最后完成数据段处理的工作节点；若否，则主节点继续等待工作节点完成Map子任务，并发出处理完成Map子任务的报告；

所述分区装置Q4，用于标记最后完成数据段处理的工作节点，将处于公共区域的多个所述中间键值对分成多个区，调取Reduce子任务，每个Reduce子任务对一个区中的中间键值按照Key进行排序，并将排序后的中间键值对周期性地写入所述分布式计算系统的公共区域；

所述获取装置Q5，用于最后完成数据段处理的工作节点获取所述公共区域的中间键值对，再次调取Reduce子任务对各个区的所述中间键值对进行处理，并将处理后得到的结果存储到所属区作为最终结果；

所述唤醒装置Q6，用于主节点唤醒用户程序，用户程序结束对MapReduce的调用并返回。

所述分区装置Q4还包括判断子装置Q7；

其中，

所述判断子装置Q7，用于判断所述中间键值对的数量是否为较大，若否，则对中间键值对的排序使用工作节点的内存空间进行排序；若是，则使用工作节点的除内存外的本地磁盘空间进行排序

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种分布式计算系统的任务调度方法，所述分布式计算系统的集群中的节点包括一个主节点和多个工作节点，其中所述主节点用于为所述多个工作节点进行任务调度，其特征在于，包括如下步骤：

S1，用户程序启动映射化简(MapReduce)程序，同时用户程序进入休眠状态；主节点获取输入文件，主节点发出执行处理输入文件的请求，所述分布式计算系统对所述请求做出响应，并将所述输入文件分成多个数据段，主节点根据所述数据段数目生成多个映射(Map)子任务，并将所述Map子任务的副本复制到各个工作节点上，其中，每个所述Map子任务用于执行处理一个所述数据段的请求；同时，所述主节点按照用户程序设定一个或多个化简(Reduce)子任务，并将所述Reduce子任务的副本复制到所述各个工作节点上；

S3，所述工作节点完成一个Map子任务后向所述主节点发出处理完成Map子任务的报告，主节点判断所有数据段的处理是否完成，若是，则执行步聚

S4；若否，则返回执行步骤S3；

2.根据权利要求1所述的分布式计算系统的任务调度方法，其特征在于，在所述步骤S4中，还包括步骤S401：

S401，判断所述中间键值对的数量是否大于所述分布式计算系统配置的用于执行任务的各工作节点的内存空间限额，若否，则对中间键值对的排序使用工作节点的内存空间进行排序；若是，则使用工作节点的除内存外的本地磁盘空间进行排序。