CN112448982A

CN112448982A - 一种多任务训练集群任务间共享网络资源的方法及系统

Info

Publication number: CN112448982A
Application number: CN201910822092.4A
Authority: CN
Inventors: 孙军欢; 胡水海
Original assignee: Shenzhen Zhixing Technology Co Ltd
Current assignee: Shenzhen Zhixing Technology Co Ltd
Priority date: 2019-08-31
Filing date: 2019-08-31
Publication date: 2021-03-05

Abstract

本发明提供一种多任务训练集群任务间共享网络资源的方法及系统，通过将集群的网络资源视为一个可以在训练任务间共享的网络资源池，并通过主动地调度和参数交换网络拓扑植入，在训练过程中尽可能充分和均衡地利用运行在集群上的各训练任务之间的网络资源。在本发明中，正是通过积极主动且有效地共享各训练任务之间的网络资源，整体提高集群资源利用率，进而提升训练任务效率。

Description

一种多任务训练集群任务间共享网络资源的方法及系统

技术领域

本发明涉及多任务机器学习训练集群网络通信领域；具体地，涉及一种多任务训练集群任务间共享网络资源的方法及系统。

背景技术

深度学习(Deep Learning，简称DL)在人工智能驱动服务中获得了广泛的成功，并成为了许多相关领域基本产品的核心。由于深度神经网络(Deep Neural Network，简称DNN)训练的计算成本极高，若要实现及时的训练则需发掘分布式系统并行计算的优势。于是，业内领军IT企业如微软、Facebook和Google已经开始在成百上千的服务器组成的生产集群上运行分布式深度学习训练(Deep Learning training，简称DLT)任务。作为一种计算密集型任务，DLT需要集中精力进行有效的集群计算资源调度。与此同时，随着GPU计算速度越来越快，模型越来越大，集群的性能瓶颈正从计算转向通信。但生产环境下DLT的网络优化还处在起步阶段，现有的参数交互机制存在着极大缺陷。

特别需要指出的是，生产环境下的深度学习训练集群(DL clusters)充满了各种不确定性。特别是在较大规模集群上同步运行数个、数十个甚至成百上千个训练任务时，它们(特别是被调度到同一计算节点的不同任务)将不得已共享集群的网络。

但是，由于通信流量属于不同任务以及流量的动态变化，并在一些参数交换通信模型(特别是如PS通信模型这类树状拓扑结构通信模型)条件下，集群的网络资源使用情况并不均匀，集群中各个计算节点会因其在通信拓扑中扮演的角色不同而使其网络通信资源消耗情况不同：有些计算节点网络通信资源可能被大量占用，甚至造成拥塞；与此同时，另一些计算节点网络通信资源则也可能是被大量的空置，鲜被占用和使用。

发明内容

有鉴于此，本发明提供一种多任务训练集群任务间共享网络资源的方法及系统。

一方面，本发明实施例提供一种多任务训练集群任务间共享网络资源的方法。

上述的任务间共享网络资源的方法，包括：

获取集群网络状态，构建集群网络资源池：即对集群中那些作为计算节点的主机终端的未被占用的网络资源进行管理，以便共享给其他需要网络资源的任务；

对于任一的训练任务，在其被调度到集群后，作为需要网络资源池共享网络资源的目标训练任务，

通过主动地调度和拓扑植入，为目标训练任务共享网络资源池中的网络资源：

即选择网络资源池中的主机终端，作为为目标训练任务构建参数交换网络时的辅助节点；在目标训练任务参数交换网络拓扑中，前面述及的辅助节点将被用作为参数交换的根节点或中间汇聚节点。

另一方面，本发明实施例提供一种多任务训练集群任务间网络资源共享系统。

上述的任务间网络资源共享系统，包括：

网络资源管理单元和任务参数交换网络拓扑植入单元；其中，

网络资源管理单元，包括网络资源池；网络资源池即集群中那些作为计算节点的主机终端的未被占用的网络资源；

在训练任务被调度到集群时，作为需要网络资源池共享网络资源的目标训练任务，网络资源管理单元将主动地为其调度共享网络资源池中的网络资源：即选择网络资源池中的主机终端，作为为目标训练任务构建参数交换网络时的辅助节点；

任务参数交换网络拓扑植入单元，则是用于目标训练任务参数交换网络拓扑的构建和植入；在目标训练任务被调度到集群及获得共享的辅助节点后，结合目标训练任务调度时被分配的计算节点，并共享的辅助节点，根据网络资源占用情况，为其生成并植入目标训练任务的参数交换网络拓扑；在生成的目标训练任务参数交换网络拓扑中，前面述及的辅助节点将被用作为参数交换的根节点或中间汇聚节点。

上述的多任务训练集群任务间共享网络资源的方法及系统，通过将集群的网络资源视为一个可以在训练任务间共享的网络资源池，并通过主动地调度和参数交换网络拓扑植入，在训练过程中尽可能充分地和负载均衡地利用各训练任务之间的(即各训练任务运行在的集群各主机终端上的)网络资源。

在本发明中，正是通过积极主动且有效地共享各训练任务之间的网络资源，整体提高集群资源利用率，进而提升训练任务效率。

下面通过附图、具体实施例对本发明的技术方案做进一步的描述。

附图说明

为更加清楚地说明本发明实施例或现有技术中的技术方案，下面将对本发明中一部分实施例或现有技术描述中涉及的附图做简单介绍。

图1为本发明一些实施例提供的一种多任务训练集群任务间共享网络资源方法的流程示意图。

具体实施方式

下面结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下为本发明的一些优选实施例。其中，

上述优选实施例提供一种多任务训练集群任务间共享网络资源的方法。如图1所示，该方法包括：

获取集群网络状态，构建集群网络资源池：

即获取集群中那些作为计算节点的主机终端的网络资源(即带宽)占用情况，将未被占用的网络资源及其对应的主机终端作为可对训练任务共享的网络资源池管理起来，以便其他训练任务需要网络资源时分享；

当训练任务被调度到集群后，作为目标训练任务，

通过主动地调度和拓扑植入，为目标任务共享网络资源池中的网络资源：

选择资源池中的主机终端，提供网络资源，也即在为目标训练任务构建参数交换网络时作为辅助节点；具体的，以扮演辅助节点的主机终端作为该训练任务参数交换时通信模型拓扑网络的的根节点或中间汇聚节点，进而实现辅助节点网络资源的最大化利用。

在上述优选实施例提供一种多任务训练集群任务间共享网络资源的方法中，显然任务间的网络资源共享是不能被滥用的。例如，在将网络通信负载本就较高的计算节点(主机终端)作为其他任务的辅助节点，共享其网络通信资源；显然将影响本训练任务所在计算节点(主机终端)的通信，也将因为资源紧张，影响后续训练任务的调度。故，优选地，在上述优选实施例中的一些提供的多任务训练集群任务间共享网络资源的方法中，共享网络资源池的网络资源时：优先选择负载低的计算节点(主机终端)，作为辅助节点共享给目标训练任务。例如，优先选择未占用网络资源的空闲计算节点(如执行单机任务的主机终端)、仅作为参数交换网络拓扑中叶节点的主机终端、通信流量优先级较低的计算节点(主机终端)、具有高带宽性能，容易形成带宽冗余的计算节点(主机终端)等；而负载过高的计算节点，显然不宜作为辅助节点，共享给目标训练任务，故还包括设定一个阈值，禁止共享负载过高的计算节点(主机终端)的共享。

在上述优选实施例中的一些提供的多任务训练集群任务间共享网络资源的方法中，在选择辅助节点时，优先选择在物理拓扑中与目标训练任务被分配计算节点(主机终端)相近的主机终端作为目标训练任务的辅助节点。

在上述优选实施例中的一些提供的多任务训练集群任务间共享网络资源的方法中，在参数交换时，根据各计算节点/辅助节点的网络占用情况，自适应地植入参数交换网络拓扑，基于参数分片，将参数交换流量自适应带宽的、均衡地分布在参数交换网络中。其中，具体的，可以根据整数线性规划等方法求解最优的网络拓扑/网络拓扑组合。

在上述优选实施例中的一些提供的多任务训练集群任务间共享网络资源的方法中，还包括：

对于任一训练任务，在训练过程中，周期性地以上述任一实施例中的方法，获取集群当前网络状态，分享网络资源池的网络资源进行新的网络拓扑植入。例如，根据参数交换的完成阶段，在完成若干次参数交换后，定期根据当前网络状态，分享网络资源池的网络资源进行新的网络拓扑植入。

本发明的另一些优选实施例提供一种多任务训练集群任务间网络资源共享系统。该系统包括：

网络资源管理单元，包括网络资源池；网络资源池即集群中那些作为计算节点的主机终端的未被占用的网络资源；网络资源管理单元，获取集群网络状态，即获取集群各节点网络带宽占用情况，并将未被占用的网络资源及其对应的主机终端作为网络资源池管理；

而任务参数交换网络拓扑植入单元，则是用于目标训练任务参数交换网络拓扑的构建和植入；在目标训练任务被调度到集群及获得共享的辅助节点后，结合目标训练任务调度时被分配的计算节点，并共享的辅助节点，根据网络资源占用情况，为其生成并植入目标训练任务的参数交换网络拓扑：即在这些扮演计算节点和辅助节点的主机终端间，根据它们的网络带宽占用情况，生成一套目标训练任务参数交换网络拓扑，并映射到这些主机终端的物理拓扑中；其中，前面述及的辅助节点，因为无待交换的参数，故只将被用作为参数交换的根节点或中间汇聚节点。

在上述优选实施例提供一种多任务训练集群任务间网络资源共享系统中，显然任务间的网络资源共享是不能被滥用的。例如，在将网络通信负载本就较高的计算节点(主机终端)作为其他任务的辅助节点，共享其网络通信资源；显然将影响本训练任务所在计算节点(主机终端)的通信，也将因为资源紧张，影响后续训练任务的调度。故，优选地，在上述优选实施例中的一些提供的多任务训练集群任务间网络资源共享系统中，共享网络资源池的网络资源时：优先选择负载低的计算节点(主机终端)，作为辅助节点共享给目标训练任务。例如，优先选择未占用网络资源的空闲计算节点(如执行单机任务的主机终端)、仅作为参数交换网络拓扑中叶节点的主机终端、通信流量优先级较低的计算节点(主机终端)、具有高带宽性能，容易形成带宽冗余的计算节点(主机终端)等；而负载过高的计算节点，显然不宜作为辅助节点，共享给目标训练任务，故还包括设定一个阈值，禁止共享负载过高的计算节点(主机终端)的共享。

在上述优选实施例中的一些提供的一种多任务训练集群任务间网络资源共享系统中，在选择辅助节点时，优先选择在物理拓扑中与目标训练任务被分配计算节点(主机终端)相近的主机终端作为目标训练任务的辅助节点。

在上述优选实施例中的一些提供的一种多任务训练集群任务间网络资源共享系统中，在参数交换时，根据各计算节点/辅助节点的网络占用情况，自适应地植入参数交换网络拓扑，基于参数分片，将参数交换流量自适应带宽的、均衡地分布在参数交换网络中。其中，具体的，可以根据整数线性规划等方法求解最优的网络拓扑/网络拓扑组合。

在上述优选实施例中的一些提供的一种多任务训练集群任务间网络资源共享系统中，还包括：

对于任一训练任务，在训练过程中，周期性地调用网络资源管理单元和任务参数交换网络拓扑植入单元，获取集群当前网络状态，分享网络资源池的网络资源进行新的网络拓扑植入。例如，根据参数交换的完成阶段，在完成若干次参数交换后，定期根据当前网络状态，分享网络资源池的网络资源进行新的网络拓扑植入。

以上所述仅为本发明的具体实施方式，但本发明的保护范围并不局限于此。

Claims

1.一种多任务训练集群任务间共享网络资源的方法，其特征在于，包括：

获取集群网络状态，构建集群网络资源池；所述网络资源池，用于管理集群中各主机终端未被占用的网络资源；

选择网络资源池中的主机终端，作为为目标训练任务构建参数交换网络时的辅助节点；在目标训练任务参数交换网络拓扑中，前面述及的辅助节点将被用作为参数交换的根节点或中间汇聚节点。

2.根据权利要求1所述的多任务训练集群任务间共享网络资源的方法，其特征在于，

优先选择负载低的主机终端，作为辅助节点共享给目标训练任务；

和/或，

设定一个阈值，禁止负载过高的主机终端的共享。

3.根据权利要求1所述的多任务训练集群任务间共享网络资源的方法，其特征在于，

在选择辅助节点时，优先选择在物理拓扑中与目标训练任务分配的主机终端相近的主机终端作为目标训练任务的辅助节点。

4.根据权利要求1所述的多任务训练集群任务间共享网络资源的方法，其特征在于，

在参数交换时，根据各计算节点/辅助节点的网络占用情况，自适应地植入参数交换网络拓扑，基于参数分片，将参数交换流量自适应带宽的、均衡地分布在参数交换网络中。

5.根据权利要求1所述的多任务训练集群任务间共享网络资源的方法，其特征在于，

对于任一训练任务，在训练过程中，周期性地获取集群当前网络状态，分享网络资源池的网络资源进行新的网络拓扑植入。

6.一种多任务训练集群任务间网络资源共享系统，其特征在于，包括：

网络资源管理单元主动地为其调度共享网络资源池中的网络资源：即选择网络资源池中的主机终端，作为为目标训练任务构建参数交换网络时的辅助节点；

任务参数交换网络拓扑植入单元，则是用于目标训练任务参数交换网络拓扑的构建和植入；在目标训练任务被调度到集群及获得共享的辅助节点后，结合目标训练任务调度时被分配的计算节点，并共享的辅助节点，根据网络资源占用情况，为其生成并植入目标训练任务的参数交换网络拓扑；在所述参数交换网络拓扑中，所述辅助节点只能作为根节点或中间汇聚节点。

7.根据权利要求6所述的多任务训练集群任务间网络资源共享系统，其特征在于，

和/或，

设定一个阈值，禁止负载过高的主机终端的共享。

8.根据权利要求6所述的多任务训练集群任务间网络资源共享系统，其特征在于，

9.根据权利要求6所述的多任务训练集群任务间网络资源共享系统，其特征在于，

10.根据权利要求6所述的多任务训练集群任务间网络资源共享系统，其特征在于，