CN110300192B

CN110300192B - 一种根据ip分配表更新分布式训练任务连接参数的方法

Info

Publication number: CN110300192B
Application number: CN201910415272.0A
Authority: CN
Inventors: 张春海; 孙夏; 冉玫美
Original assignee: Shenzhen Zhixing Technology Co Ltd
Current assignee: Shenzhen Zhixing Technology Co Ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2021-09-14
Anticipated expiration: 2039-05-17
Also published as: CN110300192A

Abstract

本发明提供一种根据IP分配表更新分布式训练任务连接参数的方法，通过利用IP分配表的记录，在启动分布式训练任务前，高效、快速地将子任务的环境配置参数中的默认连接参数更新为容器/容器组被分配获得的RDMA网络IP，实现了在容器云上运行分布式训练任务时训练数据的RDMA通信，解决了“大模型”和“大数据”场景下容器云上部署分布式训练时训练数据通信瓶颈问题，大大提高了在容器云平台上执行分布式训练的效率。

Description

一种根据IP分配表更新分布式训练任务连接参数的方法

技术领域

本发明涉及容器云、分布式机器学习领域；具体地，涉及一种根据IP分配表更新分布式训练任务连接参数的方法。

背景技术

随着大数据和机器学习研究的不断深入，大数据时代的机器学习开始呈现出“大模型”和“大数据”的特点。其中的“大模型”，是指随着机器学习(特别是深度学习)的进展，许多问题越来越需要一个更大的模型才能有能力去尽量接近要解决问题的具体功能；“大数据”则是指训练数据集较小时，机器学习(特别是深度学习)的效果并不理想，因此通常需要尽量大的数据作为训练集，以提高机器学习的效果。这样就使得在大规模机器学习训练场景下，训练数据和模型参数大到单台机器无法处理。因此，分布式机器学习也随之出现。

分布式机器学习是指将训练任务拆解成若干个小的任务，分配到多个设备上进行训练。分布式机器学习不仅是将训练任务分布到多个处理器上，同时也将数据(包括训练数据以及中间结果)分布在不同设备的存储中。为了获得更大的计算能力、存储、吞吐量以及容错能力，人们越来越倾向于分布式机器学习训练。

然而，一个具备实用意义的用于分布式机器学习训练的裸机集群(即物理主机集群)，其从构建部署到运行维护，都是极为专业且复杂甚至是繁琐的工作。为此，人们将容器云技术应用到分布式机器学习领域，简化其构建部署运维工作的难度。

容器云技术不仅能够实现容器集群的快速部署，同时它也是一种轻量化的解决方案，且能够有效整合和管理着裸机资源。这里以Kubernetes平台运行分布式机器学习训练任务为例，Kubernetes不仅为打包应用提供一致的方法，保证应用在不同设备上运行的一致性，为应用的运行环境提供资源隔离，同时其对硬件底层的复杂性和节点管理进行了抽象，并且支持GPU的调度，此外，其还可基于应用和集群本身的需要进行弹性扩展。

容器、容器编排工具的容器云平台，均是运行在操作系统上，故其默认的通信通常也是由容器云平台提供的连接访问服务实现的，虽然这是一种高可用的容器云网络解决方案，但其无法绕过操作系统。由于上述方案的通信过程需要操作系统和协议栈的介入，在“大数据”训练集的场景下，训练梯度网络传输过程中将不可避免占用大量的CPU资源，还会造成较大网络延时，严重制约训练效率。

RDMA，即远程直接数据存取技术；RDMA可以通过网络在两个节点的应用软件之间实现Buffer的直接传递。相比传统的网络传输，RDMA无需操作系统和协议栈的介入，避免了网络传输过程中大量的CPU资源占用，同时也减小了网络延时。在物理主机作为节点组成的集群进行分布式计算时，已经通过为每个物理节点挂载RDMA网卡(即支持RDMA协议的物理网卡)的方式实现了RDMA通信。

为了更高效地使用算力资源，在容器云平台部署分布式机器训练时，往往会先将待训练的任务分解为若干个子任务，并为每个子任务生成环境配置参数(以保障子任务间的依赖关系和控制子任务间的数据一致性)，然后为每个子任务创建对应的容器/容器组(这里的容器/容器组是指容器集群在编排管理时最小单位；其中，这里的容器即在容器环境下运行独立应用的容器；而容器组，是指在容器环境下运行独立应用的“逻辑主机”，运行着一个或者多个紧密耦合的应用容器，如Kubernetes平台的Pod)、连接访问服务，继而运行分布式训练；在运行分布式训练过程中，即可利用环境配置参数的连接参数即连接访问服务名称获取相应的连接访问服务，进而在默认网络下实现训练数据通信。但是，这里的连接访问服务，仅适用于在默认网络下提供相关访问连接服务，其需要通过内核的iptables等才能实现容器/容器组间默认通信的方式，显然是无法支持到RDMA网络的。要而言之，以上述方式在容器云平台上部署分布式机器训练任务时，运行在各容器/容器组上的子任务需要通信时，即使在本、对端容器/容器组间存在RDMA网络的情况下，也无法发现和使用RDMA网络的。

针对这一问题，一种技术思路即是在分解训练任务为若干个子任务和分别为子任务生成环境配置参数和创建容器/容器组时，为训练用容器集群提供额外的RDMA网络，并在启动执行分布式训练前，将其子任务环境配置参数中的默认连接参数——访问连接服务名称(用于访问默认网络)更新为容器/容器组在RDMA网络中分配到的RDMA网络IP；在更新后启动和运行的分布式训练过程中，训练子任务即可根据更新的RDMA网络IP实现RDMA通信。

发明内容

有鉴于此，本发明提供一种根据IP分配表更新分布式训练任务连接参数的方法，用于解决上述技术思路中存在的问题——即如何更新训练子任务环境配置参数中连接参数。

一方面，本发明实施例提供一种根据IP分配表更新分布式训练任务连接参数的方法。

上述的根据IP分配表更新分布式训练任务连接参数的方法，包括：

在容器云平台部署分布式训练任务过程中：

在为训练任务部署容器集群时，为子任务(由整个待训练任务分解而来)创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入；

在为上述的训练用容器集群中的容器/容器组分配RDMA网络IP时，创建IP分配表，记录RDMA网络IP分配情况；该IP分配表以容器/容器组对应的子任务的环境配置参数中的默认连接参数为容器/容器组名称，记录集群中各容器/容器组在RDMA网络中被分配获得的IP；

在上述的训练用容器集群部署完成后和启动分布式训练任务前，根据IP分配表，将子任务的环境配置参数中的默认连接参数，更新为容器/容器组的RDMA网络IP，以实现在运行分布式训练任务时子任务涉及的通信(即训练数据的通信)使用RDMA网络，采取RDMA通信方式，进而提高分布式训练的效率。

另一方面，本发明实施例提供一种在容器云上运行的分布式训练任务数据通信的方法。

结合第一方面，上述的通信方法，包括：

在容器云平台部署分布式训练任务过程中：

在为训练任务部署容器集群时，为子任务(由整个训练任务分解获得的)创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入；

进而以第一方面述及的方法，为训练用容器集群中的容器/容器组分配RDMA网络IP以及创建IP分配表，并依据此表记录在启动分布式训练任务前将子任务的环境配置参数中的默认连接参数更新为容器/容器组被分配获得的RDMA网络IP；

在启动后运行分布式训练任务时，子任务涉及的通信数据，即通过更新后的RDMA网络IP使用RDMA网络，实现RDMA通信。

再一方面，本发明实施例提供一种在容器云平台部署分布式训练任务的方法。

结合第一、二方面，上述的部署方法包括：

将待训练任务分解为若干个子任务；

并为子任务生成环境配置参数；

为待训练任务部署容器集群，其中包括：

为子任务创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入；

以第一方面述及的方法，为训练用容器集群中的容器/容器组分配RDMA网络IP以及创建IP分配表，并依据此表记录在启动分布式训练任务前将子任务的环境配置参数中的默认连接参数更新为容器/容器组被分配获得的RDMA网络IP；

更新完成后，即启动执行分布式训练任务；也即在各容器/容器组执行各子任务。无疑，分布式训练任务运行过程中，分布式训练任务的训练数据通信也即各子任务涉及的通信，也将以第二方面述及的方法实现了容器/容器组间的RDMA通信。

又一方面，本发明实施例提供了一种分布式机器学习容器云平台系统。

结合第一、二、三方面，对应地，上述的分布式机器学习容器云平台系统，包括：分布式训练任务管理单元、任务调度单元和容器云平台；其中，

分布式训练任务管理单元，用于将待训练任务分解为若干个子任务；

任务调度单元，用于调度包括子任务在内的各类任务到容器云平台上；其中包括：

为所述各类任务生成环境配置参数和定义将被创建的、用来执行所述各类任务的容器/容器组等；

容器云平台，用于部署用于训练的容器集群和管理容器集群；其中包括：

根据任务调度单元的定义，为子任务创建与之对应的容器/容器组、提供连接访问服务和额外提供RDMA网络接入；

以及以第一方面述及的方法，为所述的容器/容器组分配RDMA网络IP并创建IP分配表，进而依据此表记录在启动分布式训练任务前将子任务的环境配置参数中的默认连接参数更新为容器/容器组被分配获得的RDMA网络IP；

和在更新完成后，启动执行运行分布式训练任务。

上述实施例中提供的根据IP分配表更新分布式训练任务连接参数的方法，通过利用IP分配表的记录，在启动分布式训练任务前，快速地将子任务的环境配置参数中的默认连接参数更新为容器/容器组被分配获得的RDMA网络IP，实现了在容器云上运行分布式训练任务时训练数据的RDMA通信，解决了“大模型”和“大数据”场景下容器云上部署分布式训练时训练数据通信瓶颈问题，大大提高了在容器云平台上执行分布式训练的效率。

附图说明

为更加清楚地说明本发明实施例或现有技术中的技术方案，下面将对本发明中一部分实施例或现有技术描述中涉及的附图做简单介绍。

图1为本发明一些优选实施例提供的一种在容器云平台部署分布式训练任务的方法的流程示意图。

具体实施方式

下面结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下为本发明的一些优选实施例。其中，

上述优先实施例提供一种根据IP分配表更新分布式训练任务连接参数的方法，包括：

在容器云平台部署分布式训练任务过程中：

在为训练任务部署容器集群时，为每一个子任务(为了提高训练效率，在部署分布式训练任务时，会结合算力资源等实际情况，将整个的待训练任务分解成若干个(不少于2个)的子任务)创建对应的容器/容器组，提供连接访问服务、以及额外提供RDMA网络接入；

其中，以上的提供连接访问服务和RDMA网络接入，具体地，可以是：

通过多网卡cni为前面述及的每个容器/容器组均提供不少于两个的虚拟网卡接口；其中，

第一网卡接口，用于挂载虚拟网卡；容器/容器组通过各自的虚拟网卡接入默认网络；

第二网卡接口，用于挂载虚拟RDMA网卡；容器/容器组通过各自的RDMA网卡接入RDMA网络；

如此，容器/容器组即通过连接访问服、RDMA网络接入和它们之间的默认网络、RDMA网络，构成用于训练的双网络容器集群；

在为上述的训练用容器集群中的容器/容器组分配RDMA网络IP时，创建IP分配表，记录RDMA网络IP分配情况；该IP分配表以容器/容器组对应的子任务的环境配置参数中的默认连接参数——访问连接服务名称为容器/容器组名称，记录集群中各容器/容器组在RDMA网络中被分配获得的IP；即该IP分配表将记录有容器/容器组名称(也即容器/容器组对应的子任务的默认连接参数)和容器/容器组被分配获得的RDMA网络IP的对应关系；

在上述的训练用容器集群部署完成后和启动分布式训练任务前，根据前面述及的IP分配表，将各个子任务的环境配置参数中的默认连接参数，更新为容器/容器组被分配获得的RDMA网络IP；以实现在运行分布式训练任务时子任务涉及的通信(即训练数据的通信，如梯度聚合时的梯度数据通信等)使用RDMA网络，采取RDMA通信方式，进而提高分布式训练的效率。

具体地，这些实施例中的一些提供的根据IP分配表更新分布式训练任务连接参数的方法中，通过sriov-cni为上述的容器/容器组提供所述的第二网卡接口；对应地，通过sriov虚拟物理RDMA网卡，获得所述的用于挂载的虚拟RDMA网卡。

本发明的另一些优选实施例提供一种在容器云上运行的分布式训练任务数据通信的方法。该方法包括：

在容器云平台部署分布式训练任务过程中：

在为训练任务部署容器集群时，为每一个子任务(同上，为提高训练效率，由整个训练任务分解获得的)创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入；其中，以上的提供连接访问服务和RDMA网络接入，具体地，可以是：

进而以上述的任一实施例述及的更新连接参数的方法，为训练用容器集群中的容器/容器组分配RDMA网络IP以及创建IP分配表，并依据此表记录在启动分布式训练任务前将子任务的环境配置参数中的默认连接参数更新为容器/容器组被分配获得的RDMA网络IP；

在启动后运行分布式训练任务时，子任务涉及的通信数据，即可通过更新后的RDMA网络IP使用RDMA网络，实现RDMA通信。

本发明的再一些优选实施例提供一种在容器云平台部署分布式训练任务的方法。如图1所示，该方法包括：

将整个的待训练任务分解成若干个(不少于2个)的子任务；

并分别为每个子任务生成环境配置参数以保障子任务间的依赖关系和训练子任务间的数据一致性；在上述的环境配置参数中，包括后续过程中在容器云平台部署的容器集群执行子任务时其对应的容器/容器组与其涉及的其他容器/容器组间通信时的连接参数，这里以访问连接服务名称作为默认连接参数；

部署训练用容器集群：

为每个子任务创建对应的容器/容器组，提供连接访问服务、以及额外提供RDMA网络接入；其中，以上的提供连接访问服务和RDMA网络接入，具体地，可以是：

以上述的任一实施例述及的更新连接参数的方法，为训练用容器集群中的容器/容器组分配RDMA网络IP以及创建IP分配表，并依据此表记录在启动分布式训练任务前将子任务的环境配置参数中的默认连接参数——连接服务名称更新为容器/容器组被分配获得的RDMA网络IP；

更新完成后，即启动执行分布式训练任务，也即在各容器/容器组执行各子任务。

下面以基于上述方法在Kubernetes平台部署分布式TensorFlow任务的过程为示例，进一步帮助理解上述优选实施例中的在容器云平台部署分布式训练任务的方法。其过程如下：

根据分布式训练的类型，结合计算资源/计算资源和模型，将预训练的整个任务分解为若干个(不少于2个)子任务，并分别为每个子任务生成TF_CONFIG(其中，TF_CONFIG中包括子任务在执行时通信过程中需要的连接参数，这里默认作为连接参数的是service名称)，以保障子任务间的依赖关系和训子任务间的数据一致性，以及生成其他相关参数，用以定义后续步骤中将要创建的任务的Pod(即Kubernetes平台的“容器组”，是平台对容器进行编排管理时的最小调度单位)；比如，定义对应着子任务的Pod为训练Pod；

在Kubernetes平台部署用于训练的容器集群：

根据TF_CONFIG等为上述每个子任务创建对应的训练Pod、service(支持默认网络接入访问)和额外的RDMA网络接入：

通过multus_cni调用相应的cni插件，为上述的每个训练Pod提供两个虚拟网卡接口：

其中，通过调用flannel_cni插件，提供默认网络接口，挂载虚拟网卡，接入默认网络；默认网络通常用于平台管理任务的数据通信；

通过调用sriov_cni插件，提供RDMA网络接口，挂载RDMA虚拟网卡(基于sriov虚拟RDMA网卡获得这些虚拟RDMA网卡)，接入RDMA网络；RDMA网络将用于训练任务(即各子任务)的数据通信，例如任务执行期间梯度聚合时梯度数据的通信；

以上的Pod通过service、RDMA网络接入和它们之间的默认网络、RDMA网络，构成用于训练的双网络容器集群；

在为上述容器集群中的容器/容器组分配RDMA网络IP时，创建IP分配表，记录RDMA网络IP分配情况；具体的，以Pod对应的子任务TF_CONFIG中的service名称为Pod名称，记录集群中各Pod被分配获得的RDMA网络IP；

在上述的容器集群部署完成后和启动分布式TensorFlow任务前，根据上述IP分配表的记录，将子任务TF_CONFIG中的service名称更新为对应的Pod的RDMA网络IP；

更新完成后，即启动执行分布式TensorFlow任务。

本发明的又一些优选实施例提供一种分布式机器学习容器云平台系统。该系统包括：分布式训练任务管理单元、任务调度单元和容器云平台；其中，

分布式训练任务管理单元，用于将整个的待训练任务分解为若干个(不少于2个的)子任务；

为所述各类任务生成环境配置参数(特别是为每个子任务生成环境配置参数以保障子任务间的依赖关系和子任务间的数据一致性)，

和定义将被创建的、用来执行所述各类任务的容器/容器组等；例如，定义子任务对应的容器/容器组为训练用容器/容器组，以使之能够在向容器云平台请求后，容器云在创建时，提供诸如多网络等适用于训练的自定义性能设置；

容器云平台，用于部署用于训练的容器集群和管理容器集群等；其中包括：

根据任务调度单元的定义，为子任务创建与之对应的容器/容器组、提供连接访问服务和额外提供RDMA网络接入；其中，以上的提供连接访问服务和RDMA网络接入，具体地，可以是：通过多网卡cni为前面述及的每个容器/容器组均提供不少于两个的虚拟网卡接口；其中，

上述容器/容器组通过连接访问服、RDMA网络接入和它们之间的默认网络、RDMA网络，构成用于训练的双网络容器集群；

还包括：以上述的任一实施例述及的更新连接参数的方法，为训练用容器集群中的容器/容器组分配RDMA网络IP以及创建IP分配表，并依据此表记录在启动分布式训练任务前将子任务的环境配置参数中的默认连接参数更新为容器/容器组被分配获得的RDMA网络IP；以及在更新完成后，启动执行运行分布式训练任务。

以上所述仅为本发明的具体实施方式，但本发明的保护范围并不局限于此。

Claims

1.一种根据IP分配表更新分布式训练任务连接参数的方法，其特征在于，包括：

在容器云平台部署分布式训练任务过程中：

在为训练任务部署容器集群时，为子任务创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入；所述的子任务是由待训练任务分解的；

在为所述容器集群中的容器/容器组分配RDMA网络IP时，创建IP分配表；所述IP分配表，以所述容器/容器组对应的子任务的环境配置参数中的默认连接参数为容器/容器组名称，记录所述容器集群中容器/容器组的RDMA网络IP；

在所述容器集群部署完成后和启动分布式训练任务前，将所述环境配置参数中的默认连接参数更新为所述容器/容器组的RDMA网络IP。

2.根据权利要求1所述的根据IP分配表更新分布式训练任务连接参数的方法，其特征在于，

所述的提供连接访问服务和RDMA网络接入：

通过多网卡cni为所述容器/容器组提供不少于两个的虚拟网卡接口；其中，

第一网卡接口，用于挂载虚拟网卡；所述容器/容器组通过其接入默认网络；

第二网卡接口，用于挂载虚拟RDMA网卡；所述容器/容器组通过其接入RDMA网络。

3.根据权利要求2所述的根据IP分配表更新分布式训练任务连接参数的方法，其特征在于，

通过sriov-cni为所述容器/容器组提供所述的第二网络接口；

对应地，通过sriov虚拟物理RDMA网卡获得所述虚拟RDMA网卡。

4.一种在容器云上运行的分布式训练任务数据通信的方法，其特征在于，包括：

在容器云平台部署分布式训练任务过程中：

进而以权利要求1-3任一所述的方法，为所述容器集群中的容器/容器组分配RDMA网络IP、以及创建IP分配表，并依据所述IP分配表在启动分布式训练任务前将所述子任务的环境配置参数中的默认连接参数更新为所述容器/容器组的RDMA网络IP；

在运行分布式训练任务时，所述子任务涉及的通信，即通过更新后的RDMA网络IP使用RDMA网络。

5.一种在容器云平台部署分布式训练任务的方法，其特征在于，包括：

将待训练任务分解为若干个子任务；

并为所述子任务生成环境配置参数；

为待训练任务部署容器集群，其中包括：

为所述子任务创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入；

以权利要求1-3任一所述的方法，为所述容器集群中的容器/容器组分配RDMA网络IP、以及创建IP分配表，并依据所述IP分配表在启动分布式训练任务前将所述子任务的环境配置参数中的默认连接参数更新为所述容器/容器组的RDMA网络IP；

更新完成后，即启动执行分布式训练任务。

6.一种分布式机器学习容器云平台系统，其特征在于，包括：

分布式训练任务管理单元、任务调度单元和容器云平台；其中，

任务调度单元，用于调度包括所述子任务在内的各类任务到容器云平台上；其中包括：

为所述各类任务生成环境配置参数和定义容器/容器组；

容器云平台，用于部署容器集群和管理容器集群；其中包括：

根据任务调度单元的定义，为所述子任务创建与之对应的容器/容器组、提供连接访问服务和额外提供RDMA网络接入；

以及以权利要求1-3任一所述的方法，为所述容器集群中的容器/容器组分配RDMA网络IP、以及创建IP分配表，并依据所述IP分配表在启动分布式训练任务前将所述子任务的环境配置参数中的默认连接参数更新为所述容器/容器组的RDMA网络IP；

和在更新完成后，启动执行运行分布式训练任务。