CN108228323B

CN108228323B - 基于数据本地性的Hadoop任务调度方法及装置

Info

Publication number: CN108228323B
Application number: CN201611153389.9A
Authority: CN
Inventors: 江波; 屈秋雯
Original assignee: Loongson Technology Corp Ltd
Current assignee: Loongson Technology Corp Ltd
Priority date: 2016-12-14
Filing date: 2016-12-14
Publication date: 2020-09-01
Anticipated expiration: 2036-12-14
Also published as: CN108228323A

Abstract

本发明提供了一种基于数据本地性的Hadoop任务调度方法及装置，解决了现有技术中由于等待本地性节点或任务的时间所带来的网络开销较大、任务执行效率和资源利用率较低的问题。所述方法包括：根据任务的剩余完成时间以及节点间传输数据块的时间选取待预取节点；判断未运行的任务中是否有本地任务；如果所述未运行的任务中有本地任务，则直接从所述未运行的任务中选取本地任务分配到所述待预取节点进行执行；如果所述未运行的任务中没有本地任务，则按照数据本地性策略从所述未运行的任务中选取待预取任务；为所选取的待预取任务预取输入数据到所述待预取节点上，以使后续在调度到所述待预取任务时直接从所述待预取节点上调用所述输入数据进行任务执行。

Description

基于数据本地性的Hadoop任务调度方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于数据本地性的Hadoop任务调度方法及装置。

背景技术

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。Hadoop的框架最核心的设计就是：HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)和MapReduce。HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算。

HDFS类似于当前使用的云文件系统，通过将文件分块存储在多台节点上。MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(归约)”是MapReduce的主要思想，它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce函数，用来保证所有映射的键值对中的每一个共享相同的键组。

Hadoop针对大数据处理过程中潜在的海量网络传输开销问题，采用移动计算而不是移动数据的设计理念。其调度有三级，分别为队列级别、作业级别、任务级别。目前Hadoop的任务调度策略有如下三种：

先到先服务策略，是基于作业被提交到作业队列中的先后顺序进行调度的，新进入的作业排在队头，后进入的作业插入到队尾，当一个作业运行完之后，总是从队头取下一个作业。严格按照哪个任务先到就先处理，不论是map任务还是reduce任务。

公平调度策略，是一种使作业能够平均获取等同共享资源的调度方法，按照各个任务享有同等计算资源的方式，同时辅以先到先服务策略。满足了不同用户提交的作业在计算时间、存储空间、数据流量和响应时间都有不同需求的情况下，使用MapReduce框架能够应对多种类型作业并行执行。

计算能力调度策略，是通过各个任务所需的计算量分组，统一管理计算资源，达到系统全局计算资源的调度。保证每个作业队列所分配的计算资源尽可能的均匀，不同程度上提高了计算资源的高使用率，同时也保证了作业获取得到计算资源的公平性。

在实现本发明的过程中，发明人发现现有技术中至少存在如下技术问题：

先到先服务策略只考虑了作业被提交的先后顺序，没有考虑到作业间的差别以及作业的紧迫程度，也没有考虑到作业所需资源块的本地性，导致大作业后面的小作业需要等待很长时间，无法实现资源的共享，影响了系统的性能；公平调度策略应用场景单一，针对特殊的需求不能得到及时的响应；计算能力调度策略还是简单的使用先进先出方式进行作业调度，只适用于用户数量巨大而且各个用户要求公平得到计算资源的应用场景中。

综上，现有的三种任务调度策略没有考虑到任务本身处理数据的特性，只适应于特定的应用场景，可能导致由于等待本地性节点或任务的时间所带来的网络开销较大，任务执行效率和资源利用率较低。

发明内容

本发明提供的基于数据本地性的Hadoop任务调度方法及装置，能够减少由于等待本地性节点或任务的时间所带来的网络开销，提高任务执行效率和资源利用率。

第一方面，本发明提供一种基于数据本地性的Hadoop任务调度方法，包括：

根据任务的剩余完成时间以及节点间传输数据块的时间选取待预取节点；

判断未运行的任务中是否有本地任务；

如果所述未运行的任务中有本地任务，则直接从所述未运行的任务中选取本地任务分配到所述待预取节点进行执行；

如果所述未运行的任务中没有本地任务，则按照数据本地性策略从所述未运行的任务中选取待预取任务；

为所选取的待预取任务预取输入数据到所述待预取节点上，以使后续在调度到所述待预取任务时直接从所述待预取节点上调用所述输入数据进行任务执行。

第二方面，本发明提供一种基于数据本地性的Hadoop任务调度装置，包括：

第一选取单元，用于根据任务的剩余完成时间以及节点间传输数据块的时间选取待预取节点；

判断单元，用于判断未运行的任务中是否有本地任务；

第二选取单元，用于当所述判断单元判定所述未运行的任务中有本地任务时，直接从所述未运行的任务中选取本地任务分配到所述待预取节点进行执行；

第三选取单元，用于当所述判断单元判定所述未运行的任务中没有本地任务时，按照数据本地性策略从所述未运行的任务中选取待预取任务；

预取单元，用于为所选取的待预取任务预取输入数据到所述待预取节点上，以使后续在调度到所述待预取任务时直接从所述待预取节点上调用所述输入数据进行任务执行。

本发明实施例提供的基于数据本地性的Hadoop任务调度方法及装置，根据任务的剩余完成时间以及节点间传输数据块的时间选取待预取节点，判断未运行的任务中是否有本地任务，如果有则直接从所述未运行的任务中选取本地任务分配到所述待预取节点进行执行，如果没有则按照数据本地性策略从所述未运行的任务中选取待预取任务，为所选取的待预取任务预取输入数据到所述待预取节点上，从而可以保证后续在调度到所述待预取任务时，所需的数据已经传输到了本地，可以直接从所述待预取节点上调用所述输入数据进行任务执行，从而能够减少由于等待本地性节点或任务的时间所带来的网络开销，提高任务执行效率和资源利用率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于数据本地性的Hadoop任务调度方法实施例一的流程图；

图2为本发明基于数据本地性的Hadoop任务调度方法实施例二的流程图；

图3为本发明基于数据本地性的Hadoop任务调度装置实施例一的结构示意图；

图4为本发明基于数据本地性的Hadoop任务调度装置实施例二的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于数据本地性的Hadoop任务调度方法，图1为本发明基于数据本地性的Hadoop任务调度方法实施例一的流程图，如图1所示，本实施例的方法包括：

S11、根据任务的剩余完成时间以及节点间传输数据块的时间选取待预取节点。

其中，在进行任务调度时，对于某个节点上的非本地任务，执行该非本地任务时需要处理的数据不在该节点上，需要在执行该非本地任务之前，将这些数据从其他节点上预先传输到该节点上，以便在执行到该任务时，需要处理的数据已经位于该节点，可以直接执行。所述节点间传输数据块的时间，指的是将需要处理的数据从其原本所在的节点传输到非本地任务所在的节点需要的时间。

S12、判断未运行的任务中是否有本地任务，若所述未运行的任务中有本地任务，则执行步骤S13，否则执行步骤S14。

S13、直接从所述未运行的任务中选取本地任务分配到所述待预取节点进行执行。

S14、按照数据本地性策略从所述未运行的任务中选取待预取任务，并执行步骤S15。

S15、为所选取的待预取任务预取输入数据到所述待预取节点上，以使后续在调度到所述待预取任务时直接从所述待预取节点上调用所述输入数据进行任务执行。

所述输入数据，指的是执行该待预取任务时需要处理的数据，由于该待预取任务不是本地任务，因此，所述输入数据并不在所述待预取节点上，在执行该待预取任务之前，需要将所述输入数据预取到该待预取节点上。

本发明实施例提供的基于数据本地性的Hadoop任务调度方法，根据任务的剩余完成时间以及节点间传输数据块的时间选取待预取节点，判断未运行的任务中是否有本地任务，如果有则直接从所述未运行的任务中选取本地任务分配到所述待预取节点进行执行，如果没有则按照数据本地性策略从所述未运行的任务中选取待预取任务，为所选取的待预取任务预取输入数据到所述待预取节点上，从而可以保证后续在调度到所述待预取任务时，所需的数据已经传输到了本地，可以直接从所述待预取节点上调用所述输入数据进行任务执行，从而能够减少由于等待本地性节点或任务的时间所带来的网络开销，提高任务执行效率和资源利用率。

本发明实施例还提供一种基于数据本地性的Hadoop任务调度方法，本实施例以map任务为例进行说明，对于reduce任务，可以参照下述实施例所述的方法进行任务调度。图2为本发明基于数据本地性的Hadoop任务调度方法实施例二的流程图，如图2所示，本实施例的方法包括：

S21、根据任务的剩余完成时间以及节点间传输数据块的时间选取待预取节点。

具体地，对于每个节点，估算任务的剩余完成时间T_left以及节点间传输数据块的时间T_perblock，并对两者进行比较。为了保证在当前正在运行的任务结束之前完成预取，所选取的待预取节点需要满足T_left>T_perblock。T_left可以根据如下公式(1)计算：

其中，progress_t表示任务被调度当前的执行时间t时的任务进度，可以根据如下公式(2)计算：

其中，finished表示已读取资源块的大小，total表示任务总共需要读取资源块的大小；

Δp_t表示任务进度增长率，可根据如下公式(3)计算：

其中，t表示任务被调度到当前的执行时间。

T_perblock可以根据如下公式(4)计算：

其中，blockSize表示需要传输的资源块的大小，tranRate表示集群网络带宽传输速率。

设置候选节点集合为M，将满足T_left>T_perblock的节点加入M，并将T_left-T_perblock的值从小到大进行排序，选取T_left-T_perblock的值最小的节点作为待预取节点(target_node)。

由于Hadoop内部机制对每个节点上的失败任务数都有统计，以保证当一个节点多次失败后仍然分配到该节点，因此需要判断当前节点的失败任务数是否达到系统设定的对于一个作业在该计算节点上的失败任务数阈值。为保证待预取节点的时效性，每隔预定的时间间隔更新一次待预取节点集合，将失败任务数大于系统设定的失败任务数阈值的待预取节点从待预取节点集合中去除。

S22、按照数据本地性策略从未运行的任务队列中选取待预取任务。

其中，在Hadoop中，JobTracker建立和维护的JobInProgress对象提供了当前作业的failedMaps(失败任务队列)及nonRunningMapCache(未执行的任务队列)。

需要说明的是，所述未运行的任务队列为当前处于未运行状态的任务的集合，所述失败任务队列为已执行过且失败的任务的集合，所述未执行的任务队列为尚未执行过的任务的集合。

根据待预取节点衡量任务相对于待预取节点的数据本地性，选取待预取任务的方式如下：

为了保证失败任务优先获得计算资源，首先从failedMaps中选取失败任务。如果failedMaps中存在本地任务，则直接从failedMaps中选取本地任务分配到待预取节点进行执行，并中断本次预取流程，进行下一次迭代；否则，按照数据本地性策略从failedMaps中依次选取机架本地性任务和远程任务，作为待预取任务(target_map)。

其中，对于某个节点来说，所执行的任务通常可以分为本地性任务、机架本地性任务和远程任务，本地性任务即位于该节点上的任务；本实施例中提到的机架本地性任务即与该节点处于同一机架上的其他节点上的任务；远程任务即与该节点处于不同机架上的任务。

如果failedMaps为空，则从nonRunningMapCache中选取任务。如果nonRunningMapCache中存在本地任务，则直接从nonRunningMapCache中选取本地任务分配到候选节点target_node进行执行，并中断本次预取流程，进行下一次迭代；否则，按照数据本地性策略从nonRunningMapCache中依次选取机架本地性任务和远程任务，作为待预取任务。

S23、为所选取的待预取任务预取输入数据到待预取节点上。

首先，从待预取任务对应的TaskInProgress中读取元数据信息，确定候选源节点；然后，获取当前Hadoop集群所配置的网络拓扑结构信息，确定候选源节点与待预取节点之间的距离，选取距离最近的待预取节点；最后，将待预取任务的输入数据传输到所述待预取节点。

为了避免增加占用过多的计算资源，每次迭代只预取一个节点和一个任务。同时在计算源节点与目标节点的距离时，采用下述公式(5)计算两节点之间的距离D_ij。

本发明实施例提供的基于数据本地性的Hadoop任务调度方法，通过分析任务所处理的数据量大小来估计当前任务剩余执行时间，通过得到数据在具体哪些节点得出数据传输的网络开销时间，优先处理数据就在本地的任务，同时对于非本地任务，通过比较当前任务剩余执行时间与数据传输的网络开销比较，选取合适的任务并为其预取数据到本地，这样就可以保证调度到该任务时，其所需的数据已经传输到了本地，可以直接进行处理。从而能够解决由于被调度任务为非本地任务而需要等待数据传输的网络开销所带来的延迟，大大提高任务处理效率。

本发明实施例提供一种基于数据本地性的Hadoop任务调度装置，图3为本发明基于数据本地性的Hadoop任务调度装置实施例一的结构示意图，如图3所示，本实施例的装置包括：

第一选取单元11，用于根据任务的剩余完成时间以及节点间传输数据块的时间选取待预取节点；

判断单元12，用于判断未运行的任务中是否有本地任务；

第二选取单元13，用于当所述判断单元12判定所述未运行的任务中有本地任务时，直接从所述未运行的任务中选取本地任务分配到所述待预取节点进行执行；

第三选取单元14，用于当所述判断单元12判定所述未运行的任务中没有本地任务时，按照数据本地性策略从所述未运行的任务中选取待预取任务；

预取单元15，用于为所选取的待预取任务预取输入数据到所述待预取节点上，以使后续在调度到所述待预取任务时直接从所述待预取节点上调用所述输入数据进行任务执行。

本发明实施例提供的基于数据本地性的Hadoop任务调度装置，根据任务的剩余完成时间以及节点间传输数据块的时间选取待预取节点，判断未运行的任务中是否有本地任务，如果有则直接从所述未运行的任务中选取本地任务分配到所述待预取节点进行执行，如果没有则按照数据本地性策略从所述未运行的任务中选取待预取任务，为所选取的待预取任务预取输入数据到所述待预取节点上，从而可以保证后续在调度到所述待预取任务时，所需的数据已经传输到了本地，可以直接从所述待预取节点上调用所述输入数据进行任务执行，从而能够减少由于等待本地性节点或任务的时间所带来的网络开销，提高任务执行效率和资源利用率。

图4为本发明基于数据本地性的Hadoop任务调度装置实施例二的结构示意图，如图4所示，可选地，所述第一选取单元11包括：

第一计算子单元111，用于计算任务的剩余完成时间以及节点间传输数据块的时间；

第二计算子单元112，用于计算所述任务的剩余完成时间与所述节点间传输数据块的时间的差值；

选取子单元113，用于选取所述任务的剩余完成时间与所述节点间传输数据块的时间的差值最小的节点作为待预取节点。

进一步地，如图4所示，所述装置还包括：

去除单元16，用于将失败任务数大于预设的失败任务数阈值的待预取节点去除。

可选地，所述判断单元12，用于先判断所述未运行的任务中是否有失败的本地任务，如果所述未运行的任务中没有失败的本地任务，再判断所述未运行的任务中是否有未执行的本地任务。

可选地，所述第三选取单元14，用于从所述未运行的任务中依次选取机架本地性任务和远程任务。

进一步地，如图4所示，所述预取单元15包括：

确定子单元151，用于根据待预取任务对应的元数据信息确定源节点；

第三计算子单元152，用于计算所述源节点与各待预取节点之间的节点距离；

传输子单元153，用于将待预取任务的输入数据传输到节点距离最小的待预取节点。

本发明实施例提供的基于数据本地性的Hadoop任务调度装置，通过分析任务所处理的数据量大小来估计当前任务剩余执行时间，通过得到数据在具体哪些节点得出数据传输的网络开销时间，优先处理数据就在本地的任务，同时对于非本地任务，通过比较当前任务剩余执行时间与数据传输的网络开销比较，选取合适的任务并为其预取数据到本地，这样就可以保证调度到该任务时，其所需的数据已经传输到了本地，可以直接进行处理。从而能够解决由于被调度任务为非本地任务而需要等待数据传输的网络开销所带来的延迟，大大提高任务处理效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于数据本地性的Hadoop任务调度方法，其特征在于，包括：

判断未运行的任务中是否有本地任务；

为所选取的待预取任务预取输入数据到所述待预取节点上，以使后续在调度到所述待预取任务时直接从所述待预取节点上调用所述输入数据进行任务执行；

所述根据任务的剩余完成时间以及节点间传输数据块的时间选取待预取节点包括：计算任务的剩余完成时间以及节点间传输数据块的时间；计算所述任务的剩余完成时间与所述节点间传输数据块的时间的差值；选取所述任务的剩余完成时间与所述节点间传输数据块的时间的差值最小的节点作为待预取节点。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将失败任务数大于预设的失败任务数阈值的待预取节点去除。

3.根据权利要求1所述的方法，其特征在于，所述判断未运行的任务中是否有本地任务包括：

先判断所述未运行的任务中是否有失败的本地任务，如果所述未运行的任务中没有失败的本地任务，再判断所述未运行的任务中是否有未执行的本地任务。

4.根据权利要求1所述的方法，其特征在于，所述按照数据本地性策略从所述未运行的任务中选取待预取任务包括：从所述未运行的任务中依次选取机架本地性任务和远程任务。

5.根据权利要求1所述的方法，其特征在于，所述为所选取的待预取任务预取输入数据到所述待预取节点上包括：

根据待预取任务对应的元数据信息确定源节点；

计算所述源节点与各待预取节点之间的节点距离；

将待预取任务的输入数据传输到节点距离最小的待预取节点。

6.一种基于数据本地性的Hadoop任务调度装置，其特征在于，包括：

判断单元，用于判断未运行的任务中是否有本地任务；

预取单元，用于为所选取的待预取任务预取输入数据到所述待预取节点上，以使后续在调度到所述待预取任务时直接从所述待预取节点上调用所述输入数据进行任务执行；

所述第一选取单元包括：第一计算子单元，用于计算任务的剩余完成时间以及节点间传输数据块的时间；第二计算子单元，用于计算所述任务的剩余完成时间与所述节点间传输数据块的时间的差值；选取子单元，用于选取所述任务的剩余完成时间与所述节点间传输数据块的时间的差值最小的节点作为待预取节点。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

去除单元，用于将失败任务数大于预设的失败任务数阈值的待预取节点去除。

8.根据权利要求6所述的装置，其特征在于，所述判断单元，用于先判断所述未运行的任务中是否有失败的本地任务，如果所述未运行的任务中没有失败的本地任务，再判断所述未运行的任务中是否有未执行的本地任务。

9.根据权利要求6所述的装置，其特征在于，所述第三选取单元，用于从所述未运行的任务中依次选取机架本地性任务和远程任务。

10.根据权利要求6所述的装置，其特征在于，所述预取单元包括：

确定子单元，用于根据待预取任务对应的元数据信息确定源节点；

第三计算子单元，用于计算所述源节点与各待预取节点之间的节点距离；

传输子单元，用于将待预取任务的输入数据传输到节点距离最小的待预取节点。