CN111858509A

CN111858509A - 一种基于容器的分布式计算方法和装置

Info

Publication number: CN111858509A
Application number: CN202010639146.6A
Authority: CN
Inventors: 宋奇; 秦朝阳
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-30
Anticipated expiration: 2040-07-06
Also published as: CN111858509B

Abstract

本发明公开了一种基于容器的分布式计算方法和装置，该方法包括在Shuffle阶段执行以下步骤：调用底层驱动初始化连接到宿主机的持久化内存，为持久化内存确定设备应用模式，并在宿主机上创建区域和命名空间；基于区域和命名空间为持久化内存创建带文件系统的数据卷，将数据卷挂载到宿主机以允许容器通过容器存储接口访问文件系统；监控Shuffle管理接口并通过管理接口输出的弹性分布式数据集之间的依赖关系确定Shuffle数据，从容器通过容器存储接口访问数据卷以向文件系统溢写和/或缓存Shuffle数据。本发明能够降低Shuffle数据的处理量并提升容器内的Shuffle数据读写缓存速度，进而提升分布式计算的Shuffle效率。

Description

一种基于容器的分布式计算方法和装置

技术领域

本发明涉及分布式计算领域，更具体地，特别是指一种基于容器的分布式计算方法和装置。

背景技术

在目前主流的分布式内存计算框架的Shuffle中，一方面在编写代码时排序、连接、分组等操作会产生大量的Shuffle数据；另一方面，Shuffle阶段的数据默认溢写到Shuffle盘(如HHD、SSD等)中，但HHD的读写性能欠佳、即使是读写性能相对较好的SSD也远不及内存的读写性能，这就使得Shuffle阶段消耗大量的时间，对于Shuffle密集型计算任务十分不友好。持久化内存具有与DRAM接近的读写性能且拥有普通DRAM无法比拟的容量，但容器内与宿主机的持久化内存设备交互存在一定的技术壁垒，容器内无法识别到宿主机上的持久化存储设备。

针对现有技术中Shuffle数据量过大、容器内读写缓存速度慢的问题，目前尚无有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种基于容器的分布式计算方法和装置，能够降低Shuffle数据的处理量并提升容器内的Shuffle数据读写缓存速度，进而提升分布式计算的Shuffle效率。

基于上述目的，本发明实施例的第一方面提供了一种基于容器的分布式计算方法，包括在Shuffle阶段执行以下步骤：

调用底层驱动初始化连接到宿主机的持久化内存，为持久化内存确定设备应用模式，并在宿主机上创建区域和命名空间；

基于区域和命名空间为持久化内存创建带文件系统的数据卷，将数据卷挂载到宿主机以允许容器通过容器存储接口访问文件系统；

监控Shuffle管理接口并通过管理接口输出的弹性分布式数据集之间的依赖关系确定Shuffle数据，从容器通过容器存储接口访问数据卷以向文件系统溢写和/或缓存Shuffle数据。

在一些实施方式中，初始化持久化内存包括：使持久化内存与宿主机相互兼容；

为持久化内存确定设备应用模式包括：使持久化内存工作在允许分配命名空间的直接模式；

在宿主机上创建区域和命名空间包括：在每个持久化内存上分别创建一个区域，并在每个区域中创建至少两个命名空间，并且使至少两个命名空间的总容量小于持久化内存的实际容量。

在一些实施方式中，将数据卷挂载到宿主机以允许容器通过容器存储接口访问文件系统包括：

在文件系统内创建分区表、元数据、和存储分区，将存储分区绑定到持久化内存的命名空间，并通过命名空间使用文件系统兼容的文件存储格式来格式化存储分区，使得容器存储接口挂载存储分区以供容器访问文件系统。

在一些实施方式中，通过管理接口输出的弹性分布式数据集之间的依赖关系确定Shuffle数据包括：

分别判定通过管理接口输出的各弹性分布式数据集所具有的依赖关系是窄依赖还是宽依赖，并将判定为是宽依赖的弹性分布式数据集的依赖关系数据确定为Shuffle数据。

在一些实施方式中，分别判定通过管理接口输出的各弹性分布式数据集所具有的依赖关系是窄依赖还是宽依赖包括：

获取各弹性分布式数据集的依赖关系；

响应于一个特定弹性分布式数据集仅依赖另一个弹性分布式数据集，而将特定弹性分布式数据集的依赖关系判定为窄依赖；

响应于一个特定弹性分布式数据集同时依赖至少两个其它弹性分布式数据集，而将特定弹性分布式数据集的依赖关系判定为宽依赖。

本发明实施例的第二方面提供了一种基于容器的分布式计算装置，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，程序代码在被运行时在分布式计算的Shuffle阶段执行以下步骤：

获取各弹性分布式数据集的依赖关系；

本发明具有以下有益技术效果：本发明实施例提供的基于容器的分布式计算方法和装置，通过调用底层驱动初始化连接到宿主机的持久化内存，为持久化内存确定设备应用模式，并在宿主机上创建区域和命名空间；基于区域和命名空间为持久化内存创建带文件系统的数据卷，将数据卷挂载到宿主机以允许容器通过容器存储接口访问文件系统；监控Shuffle管理接口并通过管理接口输出的弹性分布式数据集之间的依赖关系确定Shuffle数据，从容器通过容器存储接口访问数据卷以向文件系统溢写和/或缓存Shuffle数据的技术方案，能够降低Shuffle数据的处理量并提升容器内的Shuffle数据读写缓存速度，进而提升分布式计算的Shuffle效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于容器的分布式计算方法的流程示意图；

图2为本发明提供的基于容器的分布式计算方法的构架示意图；

图3为本发明提供的基于容器的分布式计算方法的执行原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种能够降低Shuffle数据的处理量并提升容器内的Shuffle数据读写缓存速度的基于容器的分布式计算方法的一个实施例。图1示出的是本发明提供的基于容器的分布式计算方法的流程示意图。

所述的基于容器的分布式计算方法，如图1所示，包括在Shuffle阶段执行以下步骤：

步骤S101：调用底层驱动初始化连接到宿主机的持久化内存，为持久化内存确定设备应用模式，并在宿主机上创建区域和命名空间；

步骤S103：基于区域和命名空间为持久化内存创建带文件系统的数据卷，将数据卷挂载到宿主机以允许容器通过容器存储接口访问文件系统；

步骤S105：监控Shuffle管理接口并通过管理接口输出的弹性分布式数据集之间的依赖关系确定Shuffle数据，从容器通过容器存储接口访问数据卷以向文件系统溢写和/或缓存Shuffle数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

在一些实施方式中，初始化持久化内存包括：使持久化内存与宿主机相互兼容。为持久化内存确定设备应用模式包括：使持久化内存工作在允许分配命名空间的直接模式。在宿主机上创建区域和命名空间包括：在每个持久化内存上分别创建一个区域，并在每个区域中创建至少两个命名空间，并且使至少两个命名空间的总容量小于持久化内存的实际容量。

在一些实施方式中，将数据卷挂载到宿主机以允许容器通过容器存储接口访问文件系统包括：在文件系统内创建分区表、元数据、和存储分区，将存储分区绑定到持久化内存的命名空间，并通过命名空间使用文件系统兼容的文件存储格式来格式化存储分区，使得容器存储接口挂载存储分区以供容器访问文件系统。

在一些实施方式中，通过管理接口输出的弹性分布式数据集之间的依赖关系确定Shuffle数据包括：分别判定通过管理接口输出的各弹性分布式数据集所具有的依赖关系是窄依赖还是宽依赖，并将判定为是宽依赖的弹性分布式数据集的依赖关系数据确定为Shuffle数据。

在一些实施方式中，分别判定通过管理接口输出的各弹性分布式数据集所具有的依赖关系是窄依赖还是宽依赖包括：获取各弹性分布式数据集的依赖关系；响应于一个特定弹性分布式数据集仅依赖另一个弹性分布式数据集，而将特定弹性分布式数据集的依赖关系判定为窄依赖；响应于一个特定弹性分布式数据集同时依赖至少两个其它弹性分布式数据集，而将特定弹性分布式数据集的依赖关系判定为宽依赖。

根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本发明实施例公开的方法中限定的上述功能。上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

下面根据如图2和图3所示的具体实施例进一步阐述本发明的具体实施方式。

本发明实施例包括PMEM物理模块、PMEM驱动模块、容器存储接口模块和ShuffleManager模块。如图2所示，PMEM物理模块即持久化内存硬件设备，此设备用于缓存Shuffle阶段产生的数据，相较传统磁盘缓存模式具有更高读写性能和更低的延迟。PMEM驱动模块提供专门用于操作PMEM(持久化内存)的API(应用程序接口)和驱动程序，方便用户在宿主机节点上配置PMEM。容器存储接口模块包括数据卷的API，解决容器环境持久性挂载宿主机硬件目录的难题，实现容器环境与宿主机的PMEM设备建立交互的效果，为容器环境的Shuffle优化提供前提条件。ShuffleManager模块优化分布式内存计算框架原有的ShuffleManager接口，修改Shuffle数据的落盘规则，将原本落入磁盘的Shuffle数据溢写到PMEM设备中，达到提升Shuffle性能的效果。

具体地，PMEM驱动模块提供配置与操作PMEM设备软件库和API，具体包括对PMEM设备的初始化、应用模式的选择、区域的创建、命名空间的创建、删除、查询等操作，用户经过此步骤能够完成对宿主机节点上PMEM设备的环境配置与操作。

容器存储接口模块即用于容器调度器的存储驱动，它使宿主机上的PMEM设备作为文件系统卷以供容器内或Pod内的应用程序使用，具体涉及数据卷的创建、格式化和发布以及宿主机设备的挂载。容器存储接口模块创建的数据卷是连接容器环境和宿主机PMEM设备的桥梁，通过数据卷，可以实现容器环境对宿主机PMEM设备的识别与使用，还可以实现宿主机PMEM设备对容器环境Shuffle数据的缓存。

ShuffleManager模块优化ShuffleManager接口，涉及将Shuffle数据溢写到PMEM中。ShuffleManager判断是否产生Shuffle数据的策略是：分布式内存计算框架中的RDD(弹性分布式数据集)之间具有窄依赖和宽依赖两种依赖关系。窄依赖即一个子RDD仅依赖一个父RDD，是一对一的关系；宽依赖即一个子RDD依赖多个父RDD，是一对多的关系。RDD之间的宽依赖会产生Shuffle数据，且宽依赖主要涉及RDD的连接、排序、分组等操作，而RDD之间的窄依赖则无Shuffle。因此，优化后ShuffleManager通过判断RDD之间有无连接、排序、分组等操作，便能够很好地筛选初Shuffle数据，随后将Shuffle数据溢写到PMEM设备中。

图3示出的具体实施过程如下：

1)关于PMEM物理模块，用户需要在宿主机的DRAM内存插槽上安装PMEM设备，目前仅有Xeon X62系列和Xeon X82系列CPU支持PMEM设备，建议每颗CPU对应2条PMEM设备。

2)关于PMEM驱动模块，调用底层驱动使PMEM设备与宿主机系统相互兼容，同时用户可以使用该模块提供的ipmctl show-dimm指令查看PMEM信息。随后使用ipmctl create-goal PersistentMemoryType＝Direct指令创建Direct设备模式，Direct模式会直接将PMEM设备分配给namespaece。用户使用ndctl create-namespace-m devdax-r region指令来创建namespace并指定devdax的挂载格式。通常情况下一块PMEM设备对应一个region，一个region对应两个namespace，且两个namespace的总容量必须小于一块PMEM设备的实际容量。创建完成的namespace与宿主机中的字符设备目录一一对应，如namespace0.1对应/dev/dax0.1。

3)关于容器存储接口模块，主要涉及数据卷的操作和宿主机硬件设备目录的挂载，使宿主机PMEM设备作为文件系统卷可供容器内或Pod内的应用程序使用，具体如下：

3.1在PMEM设备为Direct模式下，容器存储接口模块创建数据卷

3.2在创建的数据卷中建立一个ext4或xfs文件系统

3.3在创建的文件系统内，创建一个包含分区表、元数据和一个分区的文件，该分区占用了数据卷中的大部分可用空间

3.4将该分区与/dev/dax互相绑定，并使用3.2中请求的文件系统格式对/dev/dax进行格式化

3.5当容器环境中的应用程序需要访问该数据卷时，容器存储接口模块会挂载经格式化后的/dev/dax设备，从而使容器环境中的应用程序访问到PMEM设备

4)关于ShuffleManger模块，涉及ShuffleManager接口优化的实现。具体的，判断分布式计算任务是否具有连接、排序、分组等包含Shuffle的操作，以此过滤出Shuffle数据，并改变Shuffle数据的溢写规则，将其缓存到数据卷中，即缓存到PMEM设备中。达到提升Shuffle性能的效果。ShuffleMAnager模块以编译好的jar包的形式存在，用户使用时必须在分布式计算框架的配置文件中指定此jar包的全路径。

上述实施例可以看出，本发明实施例提供的基于容器的分布式计算方法，通过调用底层驱动初始化连接到宿主机的持久化内存，为持久化内存确定设备应用模式，并在宿主机上创建区域和命名空间；基于区域和命名空间为持久化内存创建带文件系统的数据卷，将数据卷挂载到宿主机以允许容器通过容器存储接口访问文件系统；监控Shuffle管理接口并通过管理接口输出的弹性分布式数据集之间的依赖关系确定Shuffle数据，从容器通过容器存储接口访问数据卷以向文件系统溢写和/或缓存Shuffle数据的技术方案，能够降低Shuffle数据的处理量并提升容器内的Shuffle数据读写缓存速度，进而提升分布式计算的Shuffle效率。

需要特别指出的是，上述基于容器的分布式计算方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于基于容器的分布式计算方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种种能够降低Shuffle数据的处理量并提升容器内的Shuffle数据读写缓存速度的基于容器的分布式计算装置的一个实施例。基于容器的分布式计算装置包括：

处理器；和

从上述实施例可以看出，本发明实施例提供的基于容器的分布式计算装置，通过调用底层驱动初始化连接到宿主机的持久化内存，为持久化内存确定设备应用模式，并在宿主机上创建区域和命名空间；基于区域和命名空间为持久化内存创建带文件系统的数据卷，将数据卷挂载到宿主机以允许容器通过容器存储接口访问文件系统；监控Shuffle管理接口并通过管理接口输出的弹性分布式数据集之间的依赖关系确定Shuffle数据，从容器通过容器存储接口访问数据卷以向文件系统溢写和/或缓存Shuffle数据的技术方案，能够降低Shuffle数据的处理量并提升容器内的Shuffle数据读写缓存速度，进而提升分布式计算的Shuffle效率。

需要特别指出的是，上述基于容器的分布式计算装置的实施例采用了所述基于容器的分布式计算方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到所述基于容器的分布式计算方法的其他实施例中。当然，由于所述基于容器的分布式计算方法实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于所述基于容器的分布式计算装置也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种基于容器的分布式计算方法，其特征在于，包括在Shuffle阶段执行以下步骤：

调用底层驱动初始化连接到宿主机的持久化内存，为所述持久化内存确定设备应用模式，并在所述宿主机上创建区域和命名空间；

基于所述区域和所述命名空间为所述持久化内存创建带文件系统的数据卷，将所述数据卷挂载到所述宿主机以允许容器通过容器存储接口访问所述文件系统；

监控Shuffle管理接口并通过所述管理接口输出的弹性分布式数据集之间的依赖关系确定Shuffle数据，从容器通过所述容器存储接口访问所述数据卷以向所述文件系统溢写和/或缓存所述Shuffle数据。

2.根据权利要求1所述的方法，其特征在于，初始化持久化内存包括：使所述持久化内存与所述宿主机相互兼容；

为所述持久化内存确定设备应用模式包括：使所述持久化内存工作在允许分配命名空间的直接模式；

在所述宿主机上创建区域和命名空间包括：在每个所述持久化内存上分别创建一个所述区域，并在每个所述区域中创建至少两个所述命名空间，并且使至少两个所述命名空间的总容量小于所述持久化内存的实际容量。

3.根据权利要求1所述的方法，其特征在于，所述将数据卷挂载到所述宿主机以允许容器通过容器存储接口访问所述文件系统包括：

在所述文件系统内创建分区表、元数据、和存储分区，将所述存储分区绑定到所述持久化内存的所述命名空间，并通过所述命名空间使用所述文件系统兼容的文件存储格式来格式化所述存储分区，使得所述容器存储接口挂载所述存储分区以供容器访问所述文件系统。

4.根据权利要求1所述的方法，其特征在于，通过所述管理接口输出的弹性分布式数据集之间的依赖关系确定Shuffle数据包括：

分别判定通过所述管理接口输出的各弹性分布式数据集所具有的依赖关系是窄依赖还是宽依赖，并将判定为是宽依赖的弹性分布式数据集的依赖关系数据确定为所述Shuffle数据。

5.根据权利要求4所述的方法，其特征在于，分别判定通过所述管理接口输出的各弹性分布式数据集所具有的依赖关系是窄依赖还是宽依赖包括：

获取各弹性分布式数据集的依赖关系；

响应于一个特定弹性分布式数据集仅依赖另一个弹性分布式数据集，而将所述特定弹性分布式数据集的依赖关系判定为窄依赖；

响应于一个特定弹性分布式数据集同时依赖至少两个其它弹性分布式数据集，而将所述特定弹性分布式数据集的依赖关系判定为宽依赖。

6.一种基于容器的分布式计算装置，其特征在于，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，所述程序代码在被运行时在分布式计算的Shuffle阶段执行以下步骤：

7.根据权利要求6所述的装置，其特征在于，初始化持久化内存包括：使所述持久化内存与所述宿主机相互兼容；

8.根据权利要求6所述的装置，其特征在于，所述将数据卷挂载到所述宿主机以允许容器通过容器存储接口访问所述文件系统包括：

9.根据权利要求6所述的装置，其特征在于，通过所述管理接口输出的弹性分布式数据集之间的依赖关系确定Shuffle数据包括：

10.根据权利要求9所述的装置，其特征在于，分别判定通过所述管理接口输出的各弹性分布式数据集所具有的依赖关系是窄依赖还是宽依赖包括：

获取各弹性分布式数据集的依赖关系；