CN107220069A

CN107220069A - 一种针对非易失性内存的Shuffle方法

Info

Publication number: CN107220069A
Application number: CN201710532420.8A
Authority: CN
Inventors: 潘锋烽; 熊劲
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2017-09-29
Anticipated expiration: 2037-07-03
Also published as: CN107220069B

Abstract

本发明涉及一种针对非易失性内存的Shuffle方法，包括以下步骤：利用分区ID将Map任务的输出数据分别写入持久化缓冲区；拉取Reduce任务对应的所述持久化缓冲区中的数据。

Description

一种针对非易失性内存的Shuffle方法

技术领域

本发明涉及大数据处理技术领域，特别涉及一种针对非易失性内存的Shuffle方法。

背景技术

随着科学技术的发展，当今世界已进入大数据时代，MapReduce是当下流行的一种用于大规模数据并行运算的编程模型，如何优化MapReduce的性能一直是业界热点。

Shuffle是MapReduce框架中，介于Map阶段和Reduce阶段之间的一个特定的阶段，图1是MapReduce流程示意图，如图1所示，Shuffle是指当Map的输出结果要被Reduce使用时，输出结果按key哈希，并且分发到每一个Reduce上的过程，其中，Shuffle涉及了磁盘的读写和网络的传输，因此Shuffle性能的高低直接影响到了整个程序的运行效率。

现有技术中，针对Shuffle阶段的优化主要有以下方法：

Themis发表在Proceedings of the 3rd ACM Symposium on Cloud Computing(SoCC),2012上的文章，提出在Shuffle阶段使用动态内存分配策略对该过程中的数据进行存储，即作业在处理数据的过程中，数据从磁盘的读写次数只有两次，其余过程都不会与磁盘交互；SpongeFiles发表在Proceedings of the 2014 ACM SIGMOD internationalconference on Management of data上的文章，提出共享Task中未使用的内存空间，以上两种方法仅通过内存进行加速，对内存性能要求较高；

另外，Sailfish发表在Proceedings of the 3rd ACM Symposium on CloudComputing(SoCC),2012上的文章，提出在写Shuffle数据时，聚集每个Map Task相对应的分区的数据，利用分布式文件系统来存储相应的数据；Hadoop-A发表在Proceedings of the2011 International Conference for High Performance Computing,Networking,Storage and Analysis上的文章，提出利用高速网络(RDMA)的特性，使用Network-Levitated Merge算法来执行Shuffle阶段，但以上两种方法的缺陷在于过于依赖网络性能，并且采用文件系统的方式进行数据的存取的时间开销较大。

因此，目前需要一种时间开销小且内存利用率高的Shuffle优化方法。

发明内容

本发明的目的是提供一种针对非易失性内存的Shuffle方法，该方法能够克服上述现有技术的缺陷，具体包括以下步骤：

步骤1)、利用分区ID将Map任务的输出数据分别写入持久化缓冲区；

步骤2)、拉取Reduce任务对应的所述持久化缓冲区中的数据。

优选的，所述步骤1)中，每个Map任务的每个分区ID分别对应一个私有持久化缓冲区。

优选的，所述步骤1)进一步包括：在数据写入时，判断对应的所述私有持久化缓冲区是否存在；如不存在，申请新的所述私有持久化缓冲区；否则执行数据写入当前私有持久化缓冲区。

优选的，利用所述私有化缓冲区与分区ID之间的关联判断所述私有持久化缓冲区是否存在。

优选的，所述步骤1)进一步包括：在执行数据写入所述当前私有持久化缓冲区时，判断所述当前私有缓冲区是否满足数据大小，如满足，则执行数据写入，否则申请新的所述私有持久化缓冲区。

优选的，当一个私有持久化缓冲区写满时，记录所述私有化缓冲区及关联的分区ID，从而在每个Map任务的输出数据写入完成后，建立与所述Map任务关联的映射表。

优选的，所述步骤2)进一步包括利用所述映射表执行数据拉取。

根据本发明的另一方面，还提供一种MapReduce编程方法，包括采用上述针对非易失性内存的Shuffle方法。

根据本发明的另一方面，还提供一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器运行所述程序时执行如上所述的步骤。

根据本发明的另一方面，还提供一种计算机可读存储介质，包括存储在所述可读存储介质上的计算机程序，其中，所述程序执行如上所述的步骤。

相对于现有技术，本发明取得了如下有益技术效果：本发明提供的针对非易失性内存的Shuffle方法，利用NVM的特点，为大数据平台提供了java的持久化内存访问接口，使其能够直接使用与访问NVM；同时采用延迟分配策略将数据写入基于哈希的私有持久化缓冲区，一方面提升了NVM的空间利用率，另一方面提高了处理并发的效率；并且采用了映射表对NVM缓冲区进行管理，实现了数据读取阶段的快速定位。

附图说明

图1是MapReduce流程示意图。

图2是Shuffle数据量对于Sort执行时间的影响曲线图。

图3是本发明提供的基于非易失内存的Shuffle方法的架构图。

图4是本发明提供的基于哈希的私有持久化缓冲区划分示意图。

图5是本发明提供的延迟分配流程图。

图6是本发明提供的NVM缓冲区的读取示意图。

图7是本发明提供的映射表管理NVM缓冲区示意图

具体实施方式

为了使本发明的目的、技术方案以及优点更加清楚明白，以下结合附图，对根据本发明的实施例中提供的针对非易失性内存的Shuffle方法进行说明。

为了研究Shuffle性能对于整体性能的影响，发明人以Sort应用为例，评测了该应用在Spark上的运行时间随着Shuffle数据量的变化的结果。

图2是Shuffle数据量对于Sort执行时间的影响曲线图，如图2所示，随着Shuffle数据量的增大，Spark的性能大幅度地下降。这是由于在执行Map任务与Reduce任务之间的数据读取时，数据是进行分区的，因此对于某一个Reduce任务而言，从一个Map任务中读取的数据量是与Reduce任务总数量成反比，这会导致大量的小粒度和随机读，极易造成磁盘性能的下降，影响作业的执行时间。所以I/O开销是影响Shuffle性能的一个重要因素，尤其是对基于内存计算的大数据处理平台，例如Spark，Shuffle阶段的I/O开销可能大大延长数据处理的时间。

为了优化Shuffle阶段的读写性能，以便缓解I/O性能瓶颈，发明人发现非易失性内存(Non-Volatile Memory，NVM)在内存计算的场景下有着广泛的应用场景。NVM是一种断电时其内容仍能保持的非易失、可持久化的内存。NVM有着与DRAM相接近的读写延迟和吞吐率，但NVM的存储密度比DRAM更大，与NAND Flash SSD相似。但是对于NVM现有的系统软件，例如NVM文件系统，其开销过高，不能充分发挥NVM的性能，针对上述问题，发明人经研究，提出了一种高效使用NVM来提升Shuffle阶段的I/O性能的方法。

在本发明的一个实施例中，提供一种针对非易失性内存的Shuffle方法，该方法采用持久化内存的方式，直接在用户态访问持久化内存。

图3是本发明提供的基于非易失内存的Shuffle方法的架构图，如图3所示，本发明的针对非易失性内存的Shuffle方法通过建立作为java的持久化内存访问接口的NV-Shuffle接口，使大数据平台能够直接使用与访问NVM，具体包括以下步骤：

S10.将数据写入缓冲区

当Map开始产生输出时，数据首先写入到内存中的缓冲区。发明人提出了一种将数据写入基于哈希的私有持久化缓冲区的方法，即通过分区ID和Map任务对NVM缓冲区进行区分，使每个Map任务的每个分区ID都对应一个单独的持久化缓冲区。例如，图4是本发明提供的基于哈希的私有持久化缓冲区划分示意图，如图4所示，在job执行时，Map task的个数是M，每个task在数据进行partition后对应有n个ID，则可将NVM缓冲区相应划分为M*n个NV-Buffer，使得M个task分别按n个ID对应单独的持久化缓冲区。

通过采用上述方法，可以使任务在并发写时没有锁竞争开销，同时可以将各任务之间的数据利用私有持久化缓冲区完成隔离，当部分任务数据失效时，直接进行删除即可，不会影响其他任务的数据。

S20.采用延迟策略分配缓冲区

在执行步骤S10，将每个Map任务的输出数据写入私有持久化缓冲区时，可以根据参数，例如io.sort.mb，来设置缓冲区的大小。

为了有效的利用NVM缓冲区的存储空间，发明人提出了一种延迟策略，图5是本发明提供的延迟分配流程图，如图5所示，当需要将一个Map任务的输出数据，按分区ID写入其对应的私有持久化缓冲区时，首先需要判断对应的NV-Buffer是否存在，如果不存在，则申请新的NV-Buffer，进行数据的写入，其中，可以利用步骤S10在进行划分时，私有化缓冲区与分区ID之间的关联判断所述私有持久化缓冲区是否存在；如果存在，则判断当前NV-Buffer的空间是否满足数据大小；如果不满足，则申请新的NV-Buffer，进行数据的写入；如果满足，则将数据写入到NV-Buffer中。通过采用上述延迟的分配策略，能够大幅度提升NVM缓冲区的空间利用率。

S30.利用映射表管理缓冲区

在利用S20的延迟策略为每个Map任务的每个ID都分配一个单独的持久化缓冲区后，每个Reduce任务将对Map任务的输出数据进行读取。由于Reduce任务拥有多个线程，可以并行的获取Map输出，同时Reduce任务的输入数据分布在集群内的多个Map任务的输出中。发明人提出使用映射表方式来存储步骤S10获得的分区ID与NVM缓冲区的对应关系，以便在数据读取过程中快速的定位。

例如，图6是本发明提供的NVM缓冲区的读取示意图，如图6所示，共有n'个Reduce任务需要读取与之对应的数据，由于这些数据是根据分区ID进行区分的，所以在读取的过程中，一个分区ID会对应多个NV-Buffer，例如，Reduce Task1'读取Map各Task中的ID为p1的数据，Reduce Task2'读取Map各Task中的ID为p2的数据……Reduce Taskn'读取Map各Task中的ID为pn的数据。

为了提高Reduce任务的读取效率，发明人提出，在完成上述步骤S10，S20后，建立映射表以记录记录分区ID与NV-Buffer之间的对应关系。例如，图7是本发明提供的映射表管理NVM缓冲区示意图，如图7所示，为每个Map Task分别建立一个映射表，当该Map Task所对应的一个NV-Buffer写满时，将相应的<分区ID，NV-Buffer>添加到上述映射表中,在该Map Task执行完成之后，将该映射表的内容上传到Driver中；在Reduce Task拉取数据时，可以先从Driver处获取表示分区ID与NV-Buffer之间的对应关系的映射表，再依据其上记录的位置信息进行数据拉取。

通过采用映射表的方式对NVM缓冲区进行管理，提高了定位速度，有利于读取数据，并且在出现故障之后能够进行快速的数据恢复。

相对于现有技术，在本发明实施例中所提供的针对非易失性内存的Shuffle方法，充分利用了NVM的优势，提供一种java的持久化内存访问接口，即NV-Shuffle接口，使大数据平台能够直接使用与访问NVM；利用基于哈希的私有持久化缓冲区来组织Shuffle阶段的数据，可以实现高效处理并发、错误厝里、网络传输等方面的问题；同时采用了延迟分配策略提升NVM的空间利用率，以及映射表方式提高对缓冲区的管理。通过使用该方法能够高效的利用NVM提升Shuffle阶段的I/O性能，尤其特别适用于Shuffle阶段的数据量大且所占的时间比例大的Shuffle-heavy类型的负载，例如，sort负载。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

1.一种针对非易失性内存的Shuffle方法，包括以下步骤：

步骤2)、拉取Reduce任务对应的所述持久化缓冲区中的数据。

2.根据权利要求1所述的针对非易失性内存的Shuffle方法，所述步骤1)中，每个Map任务的每个分区ID分别对应一个私有持久化缓冲区。

3.根据权利要求2所述的针对非易失性内存的Shuffle方法，所述步骤1)进一步包括：在数据写入时，判断对应的所述私有持久化缓冲区是否存在；如不存在，申请新的所述私有持久化缓冲区；否则执行数据写入当前私有持久化缓冲区。

4.根据权利要求3所述的针对非易失性内存的Shuffle方法，利用所述私有化缓冲区与分区ID之间的关联判断所述私有持久化缓冲区是否存在。

5.根据权利要求3所述的针对非易失性内存的Shuffle方法，所述步骤1)进一步包括：在执行数据写入所述当前私有持久化缓冲区时，判断所述当前私有缓冲区是否满足数据大小，如满足，则执行数据写入，否则申请新的所述私有持久化缓冲区。

6.根据权利要求2所述的针对非易失性内存的Shuffle方法，当一个私有持久化缓冲区写满时，记录所述私有化缓冲区及关联的分区ID，从而在每个Map任务的输出数据写入完成后，建立与所述Map任务关联的映射表。

7.根据权利要求6所述的针对非易失性内存的Shuffle方法，所述步骤2)进一步包括利用所述映射表执行数据拉取。

8.一种MapReduce编程方法，包括根据权利要求1至7所述的针对非易失性内存的Shuffle方法。

9.一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器运行所述程序时执行如权利要求8所述的步骤。

10.一种计算机可读存储介质，包括存储在所述可读存储介质上的计算机程序，其中，所述程序执行如权利要求8所述的步骤。