CN112925640A

CN112925640A - 一种集群训练节点分配方法、电子设备

Info

Publication number: CN112925640A
Application number: CN202110185105.9A
Authority: CN
Inventors: 郑达韡; 徐进
Original assignee: Hangzhou Magic Square Artificial Intelligence Foundation Research Co ltd
Current assignee: Hangzhou Magic Square Artificial Intelligence Foundation Research Co ltd
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2021-06-08
Anticipated expiration: 2041-02-10
Also published as: CN112925640B

Abstract

本发明涉及节点分配领域，尤其涉及一种集群训练节点分配方法、电子设备，包括：设置训练分配参数，提交集群训练任务；获取可用节点集合M，获取所有分组信息列表及选择的请求组别名称对应的节点列表，获取请求节点集合Y；获取预分配可用节点集合Z＝M∩Y；检查预分配可用节点集合Z中的节点数是否满足请求节点数量；满足则建立容量为请求节点数量的分配执行节点集合；将指定节点放入分配执行节点集合；对预分配可用节点集合Z中的节点按优先级排序，并依次放入分配执行节点集合中直到装满；锁定分配执行节点，分发任务，开始任务训练。本发明的有益效果在于：优化节点分配方式，充分利用设备资源，减少训练任务的总体报错率、故障率。

Description

一种集群训练节点分配方法、电子设备

技术领域

本发明涉及节点分配领域，尤其涉及一种集群训练节点分配方法、电子设备。

背景技术

随着AI技术的发展，众多复杂的AI程序模型需要在计算集群上进行机器训练。由于多用户对集群节点资源的同时使用，在训练过程中，针对一个单机或多机训练任务，需要对节点计算机的资源进行分配。

现有技术中对节点计算机的分配是单向的、静态的，要么由用户直接选择训练组别训练节点计算机，要么系统根据剩余节点资源直接分配。并且除非用户主动禁用某报错较多的节点，在节点分配的时候一般不会根据运行状态进行调整，这种单向静态的分配方式难以实现计算资源分配的动态优化，让状态好的资源得到充分返回和利用。这容易造成资源分配不当，资源过载、报错较多，用户使用体验不佳的情况。

发明内容

本发明为克服上述的不足之处，目的在于提供一种集群训练节点分配方法、电子设备，动态调整节点分配，优化资源配置，提高用户体验。

本发明是通过以下方案达到上述目的：一种集群训练节点分配方法，包括以下步骤：

(1)设置训练分配参数，提交集群训练任务；所述训练分配参数包括组别名称、请求节点数量、也可以包括指定节点编号；

(2)获取可用节点集合M，获取所有分组信息列表及选择的请求组别名称对应的节点列表，获取请求节点集合Y；

(3)获取预分配可用节点集合Z，可用节点集合M和请求节点集合Y取交集得到预分配可用节点集合Z＝M∩Y；

(4)检查预分配可用节点集合Z中的节点数是否满足请求节点数量，不满足则返回步骤(1)；满足则建立容量为请求节点数量的分配执行节点集合；

(5)将指定节点放入分配执行节点集合；

(6)对预分配可用节点集合Z中的节点按预设规则进行优先级排序，并依次放入分配执行节点集合中，直到分配执行节点集合容量装满；

(7)锁定分配执行节点集合中的节点，将训练任务分发至分配执行节点，开始任务训练，训练过程中对节点运行状态进行监控。

作为优选，所述步骤(1)还包括选择训练环境组件选项，训练环境组件选项包括：镜像文件名称、启动参数、外部环境变量、配置参数和配置文件名称，所述配置参数包括系统资源分配参数。

作为优选，所述可用节点集合为所有集群节点中运行状态正常、不在锁定状态、不被禁用且不执行任务的节点；

作为优选，选择的请求组别名称对应的节点列表后需要检查组别名称和列表节点编号是否合法。

作为优选，所述预设规则为：每个节点对应的运行状态分数从高到低优先级进行排序。

作为优选，所述运行状态分数获取方法为：初始阶段每个节点被赋予一个初始运行状态分数，在训练运行过程中，收集每个节点报错信息，每收到一个报错信息，该节点被扣一分。

作为优选，所述步骤(7)中锁定状态节的点会在满足以下情况之一时被解除：1、任务分发完成开始运行训练任务；2、5分钟超时解除。

一种电子设备，包括：存储模块、处理器、通讯总线、接口；所述存储模块包括内存、非易失性存储器，所述接口包括网络接口、其他外设接口；存储模块、处理器、网络接口、其他外设接口通过通讯总线连接。

本发明的有益效果在于：根据历史运行的情况反馈对同组节点分配优先级进行调整，节点的历史运行状态将会影响新任务分配时节点的优先级排序，优化了节点的分配方式，既能满足用户指定分组、指定节点，又能实现其他节点计算机更加动态、高效、灵活的配置，让运行状态良好的设备资源得到充分利用，从总体上优化资源配置，减少了任务训练的总体报错率、故障率。

附图说明

图1是本发明方法的流程示意图；

图2是实施本发明方法的一种电子设备的示意图。

具体实施方式

下面结合具体实施实例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：如图1所示，一种集群训练分配方法，包括以下步骤：

(101)设置训练分配参数，提交集群训练任务；所述训练分配参数包括组别名称、请求节点数量n、也可以包括指定节点编号。

训练任务可以是机器学习算法模型训练程序，如神经网络模型训练程序，或其他深度学习模型训练程序。用户通过客户端开发模块进行训练任务开发与调试，确保训练任务可以初步跑通。开发完成后，可将训练任务上传至集群训练任务队列中等待任务分配。

本实施例中的集群包括多个节点，所述节点指计算机服务器，包括一块或多块GPU。深度学习中涉及到的运算大多是向量化的矩阵运算。GPU可以实现大规模并行运算，因此实践中通常采用GPU来运行训练任务所述GPU用于接收分发训练任务消息，根据训练任务消息将对应算法模型加载到GPU显存中，执行训练任务。

节点预先按算力的不同进行分组。将GPU显卡数量、类型的相同的分到同一组别，以确保同组节点的算力基本相同，每个组别有自己的组别名称。每组节点在初始化时会指定一个主节点，用以任务分发时调度队列任务信息，将本组任务分发给本组其他普通节点，任务分发完成后，主节点和普通节点一并完成任务执行训练。

节点组别可以由一个前端路由与多个树型结构的节点相连组成，训练任务由路由前端端口接收并传送至该组别节点。路由通过一定的负载均衡机制实现服务调度的运算，例如轮询机制、LRU调度机制，可以满足高并发运算需求。

(102)获取可用节点集合M，获取所有分组信息列表及请求组别名称对应的节点列表。

可用节点集合M为所有集群节点中运行状态正常、不在锁定状态、不被禁用且不执行任务的节点。在所有集群节点中，部分节点可以人工禁用，部分节点正在执行任务。而确定分配执行节点到训练任务完成开始运行的过程会有一定延迟，在该延迟中，分配执行节点会被锁定。

(103)检查所有分组信息列表及请求组别名称对应的节点列表的名称是否合法，若非法则返回步骤(101)。

节点预先按算力的不同进行分组。获取分组节点列表信息，还需要检查各个组别的名称是否合法，以及训练分配参数中的请求组别名称是否合法，并且该组别没有被禁用。在API接入训练任务的时候，有时候会出现输入组别名称非法的情况。非法组别名称，会导致获取失败。

在实施例中，如果组别名称合法，则根据请求组别名称获取节点列表。如果有非法命名的情况，则进行报错，并返回训练分配参数提交界面。

获取选择的请求组别名称对应的节点列表，检查列表节点编号是否合法。如果合法，则进行步骤(104)，如果非法则提示非法命名，返回提交训练分配参数页面。

在实施例中，需要获取提交集群训练任务时一并提交训练分配参数，包括请求组别名称，请求节点数量n，也可以包括指定节点编号。根据请求组别名称，以及所有分组信息列表，获取选择的组别名称对应的节点列表，得到请求节点集合Y。获取请求节点集合Y后，检查Y的节点列表编号是否合法。

如果请求节点集合Y的节点列表编号合法，则获取预分配可用节点集合。如果有非法节点编号的情况，则进行报错，并返回训练分配参数提交界面。

如果组别名称非法及节点列表编号非法，无法正确调用节点计算机，则提示用户存在非法命名情况，并返回提交训练分配参数界面。

(104)获取预分配可用节点集合Z，可用节点集合M和请求节点集合Y取交集得到预分配可用节点集合Z＝M∩Y。

(105)检查预分配可用节点集合Z中的节点数量是否满足请求节点数量n。不满足则返回步骤(101)；满足则建立容量为请求节点数量n的分配执行节点集合。

对请求节点数量n，预分配可用节点集合Z，检查是否满足预分配可用节点集合Z中元素数量，是否小于等于请求节点数量n，即n≤card(Z)。如果预分配可用节点集合Z满足请求节点数量n，则建立一个元素容量为n的分配执行节点集合，该集合内节点为空；如果预分配可用节点集合Z中数量不足，不满足请求节点数量n，则提示用于可用节点数量不足，返回提交训练分配参数界面，需要重新提交训练分配参数。

(106)将指定节点放入该分配执行节点集合中：根据指定节点编号，获取指定节点集合X。其中，训练分配参数选择的时候，选择指定节点编号，在节点分配的时候，将指定节点优先放入分配执行节点集合中。

训练分配参数选择的时候，也可以不选择指定节点编号，该指定节点集合X为空，该分配执行节点集合保持空集合。

(107)对预分配可用节点集合Z中的节点按预设规则进行优先级排序，并依次放入分配执行节点集合中，直到分配执行节点集合容量装满。

具体地，是将节点按历史运行状态分数从高到低进行优先级排序。每个节点根据历史运行状态，对应一个运行状态分数。初始阶段，每个节点被赋予一个初始运行状态分数，存放在存储结构中，所述存储结构可以为redis数据库。在训练任务运行过程中，收集每个节点报错信息，每收到一个报错信息，该节点被扣一分。多次运行后，每个节点有跟历史运行状态相关的运行状态分数，此计数过程由监控模块完成。通过这种方式，节点计算机服务器的历史运行状态将会影响新任务分配时节点的优先级排序，确保报错较少的机器能够优先分配，从总体上优化资源配置，减少了任务训练的总体报错率。然后根据优先级顺序将预分配可用节点集中的节点，放入分配执行节点集合中，直到分配执行节点集合容量装满。

(108)锁定分配执行节点集合中的节点，将训练任务分发至分配执行节点，开始任务训练，训练过程中对节点运行状态进行监控。

在集群训练的所有节点中，从确定分配执行节点到训练任务开始运行训练任务的过程会有一定延迟。因此，为了防止不同任务训练请求造成重复分配，分配执行节点集合中的节点会被锁定。

在实施例中，锁定状态节点会在满足以下情况之一时被解除：1、任务分发完成开始运行训练任务；2、5分钟超时解除。

进一步的，为了保证每个节点的训练环境相同，训练任务分发前在分配执行节点上部署训练环境组件。在设置训练分配参数同时还要选择训练环境组件选项。通过创建训练环境容器实现训练环境组件部署。每个计算机服务器是机器训练集群中一个节点，使用Docker技术实现节点环境统一管理和资源的统筹规划。建立训练环境容器的镜像文件，包括操作系统，底层驱动，训练基础框架等。预先创建多个训练环境组件选项，每个训练环境组件选项中包括预先配置封装好的镜像文件名称、启动参数、外部环境变量、配置参数和配置文件名称。所述配置参数为系统资源分配参数，如内存分配、CPU占用、用户名密码等。根据训练环境组件选项中的底层驱动镜像文件名称、启动参数、外部环境变量、配置参数和配置文件名称，自动生成配置函数文件，配置函数依次启动对应的驱动、配置相应参数、加载相应训练框架，完成节点的环境部署。用户在开发完成训练任务后，在客户端发布训练任务时需选择训练环境组件选项，完成分配执行节点上的训练环境组件部署。

训练任务分发采用同步分发的方式，将训练任务加载到各个分配执行节点上，在每个节点上执行相同的训练任务。通过容器工具建立镜像同步完成训练环境组件部署，保证每个节点上训练环境相同，完成环境部署的节点可以基于容器间的通信进行数据通信，实现多机并行训练。

监控模块在训练任务运行过程中对节点的运行状态进行监控，包括集群状态监控、训练任务管理、训练过程管控。及具体地，可以依靠容器组件实时获取节点运行数据。集群状态监控包括实时采集和显示各个节点的配置情况和运行状态、GPU、CPU、内存空间及资源占用曲线，对节点资源进行统一管理和监控。训练任务管理包括汇总显示分组情况，实时采集每个训练批次的序列任务日志，监控和管理任务分配训练过程，任务完成情况，显示汇总指标和详细列表。训练任务过程管控包括对训练过程的控制，包括任务的整体启动、暂停、停止，结果查看，节点检索，单个节点禁用等等。

图2是一种电子设备，包括：存储模块、处理器、通讯总线、接口；所述存储模块包括内存、非易失性存储器，所述接口包括网络接口、其他外设接口；存储模块、处理器、网络接口、其他外设接口通过通讯总线连接，图中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种集群训练节点分配方法，其特征在于，包括以下步骤：

(5)将指定节点放入分配执行节点集合；

2.根据权利要求1所述的一种集群训练节点分配方法，其特征在于所述步骤(1)还包括选择训练环境组件选项，训练环境组件选项包括：镜像文件名称、启动参数、外部环境变量、配置参数和配置文件名称，所述配置参数包括系统资源分配参数。

3.根据权利要求1所述的一种集群训练节点分配方法，其特征在于，所述可用节点集合为所有集群节点中运行状态正常、不在锁定状态、不被禁用且不执行任务的节点。

4.根据权利要求1-3所述的一种集群训练节点分配方法，其特征在于，选择的请求组别名称对应的节点列表后需要检查组别名称和列表节点编号是否合法。

5.根据权利要求1-4所述的一种集群训练节点分配方法，其特征在于所述预设规则为：每个节点对应的运行状态分数从高到低优先级进行排序。

6.根据权利要求1-5所述的一种集群训练节点分配方法，其特征在于，所述运行状态分数获取方法为：初始阶段每个节点被赋予一个初始运行状态分数，在训练运行过程中，收集每个节点报错信息，每收到一个报错信息，该节点被扣一分。

7.根据权利要求1-6所述的一种集群训练节点分配方法，其特征在于所述步骤(7)中锁定状态节的点会在满足以下情况之一时被解除：1)任务分发完成开始运行训练任务；2)5分钟超时解除。

8.一种电子设备，其特征在于包括：存储模块、处理器、通讯总线、接口；所述存储模块包括内存、非易失性存储器，所述接口包括网络接口、其他外设接口；存储模块、处理器、网络接口、其他外设接口通过通讯总线连接。