CN111768006A

CN111768006A - 一种人工智能模型的训练方法、装置、设备及存储介质

Info

Publication number: CN111768006A
Application number: CN202010588872.XA
Authority: CN
Inventors: 王森
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-13

Abstract

本公开涉及一种人工智能模型的训练方法、装置、设备及存储介质，该方法包括：确定待训练人工智能AI模型的训练任务，以及所述训练任务对应的资源需求信息；基于各个节点当前的资源空闲信息，为所述训练任务分配满足所述训练任务对应的资源需求信息的节点，作为所述训练任务的训练节点；调度所述训练节点执行所述训练任务，以完成对所述待训练AI模型的训练。由于在对AI模型进行训练之前，已为其分配能够满足其训练需求的节点，因此，在AI模型的训练过程中，能够避免资源冲突的发生，从而提高了AI模型的训练效率。

Description

一种人工智能模型的训练方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种人工智能模型的训练方法、装置、设备及存储介质。

背景技术

随着人工智能(英文：Artificial Intelligence；简称：AI)和深度学习技术的飞速发展，加速人工智能解决方案在实际应用场景下的落地变得尤为重要。在AI解决方案的实施过程中，对人工智能模型的快速训练和部署是至关重要的一步。

因此，为了提高AI模型的训练效率，需要满足模型训练过程中对系统资源的需求。但是，目前的AI模型训练方法中，并未对系统资源进行有效管理，导致在对不同的AI模型进行训练时，容易造成CPU、内存、磁盘、IO、带宽等硬件资源冲突的情况，进一步的影响了AI模型的训练效率。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种人工智能模型的训练方法、装置、设备及存储介质。

第一方面，本公开提供了一种人工智能模型的训练方法，所述方法包括：

确定待训练人工智能AI模型的训练任务，以及所述训练任务对应的资源需求信息；

基于各个节点当前的资源空闲信息，为所述训练任务分配满足所述训练任务对应的资源需求信息的节点，作为所述训练任务的训练节点；

调度所述训练节点执行所述训练任务，以完成对所述待训练AI模型的训练。

第二方面，本公开提供了一种人工智能模型的训练装置，所述装置包括：

确定模块，用于确定任一人工智能AI模型对应的训练任务；其中，所述训练任务具有对应的资源需求信息；

分配模块，用于基于各个节点当前的资源空闲信息，为所述训练任务分配能够满足所述训练任务对应的资源需求信息的节点，作为所述训练任务的训练节点；

调度模块，用于调度所述训练节点执行所述训练任务，以完成对所述AI模型的训练。

第三方面，本公开提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现如权利要求1-13任一项所述的方法。

第四方面，本公开提供了一种设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-13任一项所述的方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供的人工智能模型的训练方法中，通过对集群中各个节点的资源进行有效的管理，能够基于各个节点当前的资源空闲信息，为待训练AI模型的训练任务分配满足其资源需求信息的节点，作为训练节点，通过调度该训练节点执行该待训练AI模型的训练任务，完成AI模型的训练。由于在对AI模型进行训练之前，已为其分配能够满足其训练需求的节点，因此，在AI模型的训练过程中，能够避免资源冲突的发生，从而提高了AI模型的训练效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种人工智能模型的训练方法流程图；

图2为本公开实施例提供的一种人工智能模型的训练方法流程图；

图3为本公开实施例提供的一种人工智能模型的训练方法流程图；

图4为本公开实施例提供的一种人工智能模型的训练装置结构示意图；

图5为本公开实施例提供的一种人工智能模型的训练设备结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

由于对人工智能AI模型的训练效率，影响着AI解决方案在实际应用场景下的落地效率，因此，如何提高AI模型的训练效率，是目前亟需解决的问题。

在实际的AI模型训练过程中，能够提供足够的系统资源支持是保证AI模型训练效率的基础。而目前并没有有效的对系统资源进行管理，导致在利用同一节点对不同的AI模型进行训练时，容易造成CPU、内存、磁盘、IO、带宽等硬件资源冲突的情况，影响着AI模型的训练效率。

为此，本公开提供了一种人工智能模型的训练方法，通过对系统的资源进行有效的管理，能够基于各个节点当前的资源空闲信息，为待训练AI模型的训练任务分配满足其资源需求信息的节点，作为训练节点，通过调度该训练节点执行该待训练AI模型的训练任务，完成AI模型的训练。由于在对AI模型进行训练之前，已为其分配能够满足其训练需求的节点，因此，在AI模型的训练过程中，能够避免资源冲突的发生，从而提高了AI模型的训练效率。

以下本公开实施例提供了一种人工智能模型的训练方法，参考图1，为本公开实施例提供的一种人工智能模型的训练方法流程图，该方法包括：

S101：确定待训练人工智能AI模型的训练任务，以及所述训练任务对应的资源需求信息。

本公开实施例中，待训练AI模型可以为任一种AI模型，从算法角度可以包括神经网络模型、支持向量机模型等，从功能角度可以包括图像识别模型、自然语言识别模型等。值得注意的是，本公开实施例对于待训练AI模型的类型不做限制。

在确定待训练AI模型之后，将对该待训练AI模型进行训练的任务确定为本公开实施例中的训练任务。

另外，为了保证能够为训练任务提供足够的系统资源支持，本公开实施例在确定训练任务之后，还需要确定该训练任务对应的资源需求信息。具体的，该训练任务对应的资源需求信息可以包括完成该训练任务所需的CPU、GPU、内存、磁盘、带宽等硬件资源的信息。例如，训练任务对应的资源需求信息可以为如下表1的形式：

CPU	8核
		GPU	1卡
内存	16G
		磁盘	120G

表1

S102：基于各个节点当前的资源空闲信息，为所述训练任务分配满足所述训练任务对应的资源需求信息的节点，作为所述训练任务的训练节点。

实际应用中，各个节点可以属于一个集群，集群中的主节点可以用于执行获取各个节点当前的资源空闲信息，以对集群中各个节点的系统资源进行管理。

一种可选的实施方式中，集群中的主节点可以在确定训练任务对应的资源需求信息之后，基于资源需求信息通过遍历的方式从各个节点获取当前的资源空闲信息，以便用于为训练任务分配训练节点。另外，集群中的主节点还可以周期性的获取各个节点当前的资源空闲信息，以实时了解各个节点的资源情况，实现系统资源的有效管理。

实际应用中，在为训练任务分配训练节点之前，通过将各个节点当前的资源空闲信息与该训练任务对应的资源需求信息进行比较，以确定能够满足该训练任务对应的资源需求信息的节点。

实际应用中，在确定各个节点当前的资源空闲信息之后，确定是否存在满足该训练任务对应的资源需求信息的节点，如果存在能够满足训练任务对应的资源需求信息的节点，则可以从能够满足训练任务对应的资源需求信息的节点中，确定出该训练任务的训练节点；对于不存在能够满足训练任务对应的资源需求信息的节点的情况，在后续实施例中进行介绍。

一种可选的实施方式中，可以从能够满足训练任务对应的资源需求信息的节点中，随机选择一个节点作为该训练任务的训练节点。由于选择的节点能够满足训练任务对应的资源需求信息，因此在执行训练任务的过程中发生资源冲突的可能性较低。

另一种可选的实施方式中，可以基于能够满足训练任务对应的资源需求信息的节点当前的资源空闲信息与训练任务对应的资源需求信息之间的差值信息，确定该训练任务的训练节点。其中，差值信息可以包括各种类型的资源的差值信息，例如，表2中存储有某个节点当前的资源空闲信息：

CPU	48核
		GPU	8卡
内存	256G
		磁盘	2048G

表2

参照表1和表2，可以确定表2对应的节点当前的资源空闲信息与表1中训练任务对应的资源需求信息之间的差值信息，如表3所示：

CPU	40核
		GPU	7卡
内存	240G
		磁盘	1928G

表3

可以理解的是，表3中的差值信息是指，假设利用表2对应的节点作为该训练任务的执行节点对应的该执行节点的剩余资源情况，即运行有该训练任务的执行节点对应的资源空闲信息。

实际应用中，用于确定是否能够满足训练任务对应的资源需求信息的节点通常属于同一个集群，集群中执行节点的剩余资源越少，则意味着该执行节点的资源利用率越高，相应的，该执行节点所属的集群的整体空闲资源越多，可分配给其他训练任务的资源越多，从而使得该集群能够处理的训练任务的数量越多，提高了集群整体的吞吐量。

为了便于对节点当前的资源空闲信息与训练任务对应的资源需求信息之间的差值信息进行描述，本公开实施例基于节点当前的资源空闲信息与训练任务对应的资源需求信息之间的差值信息，确定各个节点分别对应的资源差值，即利用资源差值对节点对应的差值信息进行描述。然后，本公开实施例可以基于各个节点分别对应的资源差值，确定训练任务的训练节点。

具体的，资源差值越小，该资源差值对应的节点被确定为训练节点的概率越高，资源差值越小的节点被确定为训练任务的训练节点，则意味着该训练节点的剩余资源越少，从而使得该训练节点所属集群能够处理的训练任务的数量越多，提高了集群整体的吞吐量。

一种优选的实施方式中，将资源差值最小的节点确定为训练任务的训练节点，使得该训练节点所属集群能够处理的训练任务的数量最多，最大化提高集群整体的吞吐量。

一种可选的用于确定节点对应的资源差值的实现方式中，由于各种资源类型的数量级差别较大，为了均衡各种资源类型的空闲资源信息在确定训练任务的训练节点中起到的作用，本公开实施例为各个资源类型分别设置量级系数。

具体的，本公开实施例中，首先基于各个资源类型对应的数量级，分别为各个资源类型设置量级系数；其次，基于各个资源类型对应的量级系数，以及所述节点当前的资源空闲信息与所述资源需求信息之间的差值信息，计算各个节点分别对应的资源差值。

例如，CPU的数量级大约为两位数，内存则为三位数，GPU一般为个位数，差距明显，因此需要其分别设置量级系数，以均衡在确定训练任务的训练节点中分别起到的作用。

实际应用中，在为各个资源类型设置量级系数之后，基于各个资源类型对应的量级系数，以及各个节点当前的资源空闲信息与所述资源需求信息之间的差值信息，计算各个节点分别对应的资源差值。

一种可选的实施方式中，可以利用以下公式(1)计算各个节点分别对应的资源差值，公式(1)如下：

scorei＝w1*(Ci-C)+w2*(Gi-G)+w3*(Mi-M)；

其中，scorei表示某个节点对应的资源差值，Ci表示该节点的CPU剩余核数、Gi表示该节点的GPU剩余卡数，Mi表示该节点的内存剩余空间，C、G、M分别表示该训练任务对应的资源需求信息中CPU、GPU和内存的需求情况，w1、w2、w3分别为CPU剩余核数、GPU剩余卡数和内存剩余空间对应的量级系数。

值得注意的是，参与计算各个节点分别对应的资源差值的资源类型具体为，训练任务对应的资源需求信息中的资源类型。

可以理解的是，在能够满足训练任务对应的资源需求信息的节点中，资源差值越小的节点，被作为该训练任务的执行节点后，使得该节点所属的集群的整体剩余资源越多，使得整个集群能够处理的训练任务的数量越多，提升了集群对训练任务的吞吐量。

因此，本公开实施例中，可以将资源差值最小的节点，确定为训练任务的训练节点，以最大化提升集群对训练任务的吞吐量。

S103：调度所述训练节点执行所述训练任务，以完成对所述待训练AI模型的训练。

本公开实施例中，在为训练任务分配训练节点之后，可以调度该训练节点执行对应的训练任务，从而利用该执行节点完成对待训练AI模型的训练。

一种应用场景中，如果不存在能够满足训练任务对应的资源需求信息的节点，则可以对当前正在执行训练任务的节点进行抢占。具体的，参考图2，为本公开实施例提供的另一种AI模型的训练方法流程图，该AI模型的训练方法包括：

S201：确定待训练人工智能AI模型的训练任务，以及所述训练任务对应的资源需求信息。

S202：基于各个节点当前的资源空闲信息，确定是否存在满足所述训练任务对应的资源需求信息的节点，如果是，则执行S203，如果否，则执行S204。

S203：如果存在满足所述训练任务对应的资源需求信息的节点，则基于所述节点当前的资源空闲信息与所述资源需求信息之间的差值信息，确定所述训练任务的训练节点。

S204：如果不存在能够满足所述训练任务对应的资源需求信息的节点，则基于所述训练任务的优先级与各个节点上当前正在执行的任务的优先级之间的关系，确定所述训练任务的训练节点。

本公开实施例中，如果当前不存在能够满足训练任务对应的资源需求信息的节点，则可以基于训练任务之间的优先级关系，抢占各个节点上当前正在执行训练任务的节点，作为该训练任务的训练节点。具体的，各个训练任务可以预先设置有优先级，用于表示该训练任务的重要性等。

具体的，判断训练任务的优先级是否高于各个节点上当前正在执行的任务的优先级，如果该训练任务的优先级高于各个节点上当前正在执行的至少一个任务的优先级，则可以基于该至少一个任务对应的节点，确定该训练任务的训练节点。

具体的，从优先级低于该训练任务的各个节点上当前正在执行的任务对应的节点中，随机选择一个能够满足该训练任务对应的资源需求信息的节点，作为该训练任务的训练节点。

一种可选的实施方式中，如果训练任务的优先级高于各个节点上当前正在执行的至少一个任务的优先级，即存在至少一个各个节点上当前正在执行的任务的优先级是小于该训练任务的优先级，则可以根据该至少一个任务的优先级之间的关系，确定一个排序列表，用于表示优先级小于该训练任务的各个节点上正在执行的任务之间的优先级关系。

具体的，可以基于优先级从高到低或从低到高的顺序，对优先级低于该训练任务的当前正在执行的任务进行排序，得到排序列表。然后，基于该排序列表，从该排序列表中的任务分别对应的节点中，确定该训练任务的训练节点。

一种可选的实施方式中，可以按照排序列表中优先级从低到高的顺序，依次判断各个任务对应的节点是否能够满足该训练任务对应的资源需求信息，直到找到能够满足该训练任务对应的资源需求信息的节点，并将其作为该训练任务的执行节点。如果基于排序列表并未找到能够满足该训练任务对应的资源需求信息的节点，则可以将该训练任务设置为等待状态，直到找到能够满足该训练任务对应的资源需求信息的节点。

实际应用中，可以基于排序列表中优先级从低到高的顺序，依次释放该排序列表中每个任务占用的资源，直到得到能够满足该训练任务对应的资源需求信息的节点，作为该训练任务的执行节点。值得注意的是，为了保证被抢占资源的任务后续还能够继续被执行，本公开实施例在释放该任务占用的资源之前，先保存该任务的运行状态数据。

可以理解的是，优先级的高低能够表明对应的任务的重要程度或者执行紧迫度，因此，优先级低的任务对应的节点被抢占的几率更大。

由于优先级相同而任务提交时间越晚的任务的训练进度越少，因此，一旦其对应的节点被占用，该任务需要保存的训练状态数据等也就越少。为此，本公开实施例可以基于优先级和任务提交时间，对排序列表中的各个任务进行排序，将优先级相同但任务提交时间越晚的任务对应的节点优先分配给该训练任务。

一种实施方式中，如果训练任务的优先级不高于当前正在执行的任务的优先级，则说明当前不存在优先级低于该训练任务的其他正在执行的任务，因此，本公开实施例可以将该训练任务设置为等待状态，直到存在能够满足该训练任务对应的资源需求信息的节点。

S205：调度所述训练节点执行所述训练任务，以完成对所述待训练AI模型的训练。

本公开实施例中的S201-S203和S205可参照上述实施例进行理解，在此不再赘述。

本公开实施例提供的AI模型的训练方法中，可以基于任务之间的优先级关系等，对正在执行的任务的节点进行抢占，以保证优先级高的训练任务能够及时执行。

为了避免不同训练任务在同一训练节点上运行环境等出现冲突的问题，本公开实施例提供了一种人工智能模型的训练方法，参考图3，为本公开实施例提供的另一种人工智能模型的训练方法流程图。该人工智能模型的训练方法包括：

S301：基于待训练AI模型的相关训练程序和运行环境，生成所述AI模型的训练镜像。

为了避免不同训练任务在同一训练节点上出现运行环境等冲突的问题，使得训练任务能够正常被执行，本公开实施例将待训练AI模型的相关训练程序和运行环境制作成镜像，得到该待训练AI模型的训练镜像。

一种可选的实施方式中，训练镜像可以为基于Docker技术生成的。

S302：确定待训练人工智能AI模型的训练任务，以及所述训练任务对应的资源需求信息；

S303：基于各个节点当前的资源空闲信息，为所述训练任务分配满足所述训练任务对应的资源需求信息的节点，作为所述训练任务的训练节点；

S304：在所述训练节点上运行所述待训练AI模型的训练镜像，以执行所述训练任务，从而完成对所述待训练AI模型的训练。

本公开实施例中，在确定训练任务的训练节点之后，在该训练节点上运行该训练任务对应的待训练AI的训练镜像，以执行该训练任务，完成AI模型的训练。

一种可选的实施方式中，为了便捷的实现各个训练任务的增删改查等基本操作，本公开实施例可以利用Pod运行每个训练任务的训练镜像。

具体的，Pod是Kubernete集群中最小的可部署的计算单元，通过对Pod的生命周期管理能够便捷实现对应训练任务的增删改查等操作。

实际应用中，首先，在该训练任务的训练节点上为该训练任务创建对应的Pod。然后，利用该Pod运行该训练任务对应的待训练AI模型的训练镜像，以执行该训练任务，从而完成对该待训练AI模型的训练。

另外，本公开实施例中的每个Pod拥有独立的虚拟IP地址，相对于同一节点上运行的各个训练任务共享相同的节点IP地址的情形，本公开实施例能够避免网络带宽和磁盘IO的拥堵压力。

另外，本公开实施例中，执行节点在执行训练任务时，可以生成训练日志，用于记载训练任务的执行情况。用户可以通过从执行节点下载训练日志，了解训练任务的执行过程，以便于后续优化相关训练程序等。

本公开实施例提供的AI模型的训练方法中，利用镜像技术生成待训练AI模型的训练镜像，能够避免不同训练任务在同一训练节点上出现运行环境等冲突的问题。

另外，利用Pod运行训练任务对应的训练镜像，便于实现对训练任务的增删改查等操作。

与上述方法实施例相对应的，本公开实施例还提供了一种人工智能模型的训练装置，参考图4，为本公开实施例提供的一种人工智能模型的训练装置结构示意图。具体的，该人工智能模型的训练装置包括：

确定模块401，用于确定任一人工智能AI模型对应的训练任务；其中，所述训练任务具有对应的资源需求信息；

分配模块402，用于基于各个节点当前的资源空闲信息，为所述训练任务分配能够满足所述训练任务对应的资源需求信息的节点，作为所述训练任务的训练节点；

调度模块403，用于调度所述训练节点执行所述训练任务，以完成对所述AI模型的训练。

一种可选的实施方式中，为了避免不同训练任务在同一训练节点上出现运行环境等冲突的问题，所述装置还包括：

生成模块，用于基于待训练AI模型的相关训练程序和运行环境，生成所述待训练AI模型的训练镜像；

相应的，所述调度模块，具体用于：

在所述训练节点上运行所述待训练AI模型的训练镜像，以执行所述训练任务，从而完成对所述待训练AI模型的训练。

一种可选的实施方式中，所述调度模块，具体包括：

创建子模块，用于在所述训练节点上为所述训练任务创建对应的Pod；其中，所述Pod具有独立的虚拟IP地址；

运行子模块，用于利用所述Pod运行所述待训练AI模型的训练镜像，以执行所述训练任务，从而完成对所述待训练AI模型的训练。

一种可选的实施方式中，所述分配模块，包括：

第一确定子模块，用于基于各个节点当前的资源空闲信息，确定是否存在满足所述训练任务对应的资源需求信息的节点；

第二确定子模块，用于在存在满足所述训练任务对应的资源需求信息的节点时，基于所述节点当前的资源空闲信息与所述资源需求信息之间的差值信息，确定所述训练任务的训练节点。

具体的，第二确定子模块，包括：

第三确定子模块，用于基于所述节点当前的资源空闲信息与所述资源需求信息之间的差值信息，确定各个节点分别对应的资源差值；

第四确定子模块，用于基于所述资源差值，确定所述训练任务的训练节点；其中，所述资源差值越小，所述资源差值对应的节点被确定为所述训练节点的概率越高。

具体的，第三确定子模块，包括：

第一设置子模块，用于基于各个资源类型对应的数量级，分别为各个资源类型设置量级系数；

计算子模块，用于基于各个资源类型对应的量级系数，以及所述节点当前的资源空闲信息与所述资源需求信息之间的差值信息，计算各个节点分别对应的资源差值。

第四确定子模块，具体用于：

将所述资源差值最小的节点，确定为所述训练任务的训练节点。

一种可选的实施方式中，所述装置还包括：

第五确定子模块，用于在不存在满足所述训练任务对应的资源需求信息的节点时，基于所述训练任务的优先级与当前正在执行的任务的优先级之间的关系，确定所述训练任务的训练节点。

第五确定子模块，包括：

第二设置子模块，用于在所述训练任务的优先级不高于当前正在执行的任务的优先级时，将所述训练任务设置为等待状态，直到存在能够满足所述训练任务对应的资源需求信息的节点；

第六确定子模块，用于在所述训练任务的优先级高于当前正在执行的至少一个任务的优先级时，基于所述至少一个任务对应的节点，确定所述训练任务的训练节点。

第六确定子模块，包括：

第七确定子模块，用于基于所述至少一个任务的优先级，确定所述至少一个任务的排序列表；

第八确定子模块，用于基于所述排序列表，从所述至少一个任务对应的节点中，确定所述训练任务的训练节点。

第七确定子模块，具体用于：

基于所述至少一个任务的优先级以及任务提交时间，确定所述至少一个任务的排序列表。

第八确定子模块，包括：

释放子模块，用于基于所述排序列表，依次释放所述至少一个任务中每个任务占用的资源，直到得到能够满足所述训练任务对应的资源需求信息的节点；

第九确定子模块，用于将所述节点确定为所述训练任务的训练节点。

一种可选的实施方式中，所述装置还包括：

保存子模块，用于保存所述任务的运行状态数据。

本公开实施例提供的人工智能模型的训练装置中，通过对集群中各个节点的资源进行有效的管理，能够基于各个节点当前的资源空闲信息，为待训练AI模型的训练任务分配满足其资源需求信息的节点，作为训练节点，通过调度该训练节点执行该待训练AI模型的训练任务，完成AI模型的训练。由于在对AI模型进行训练之前，已为其分配能够满足其训练需求的节点，因此，在AI模型的训练过程中，能够避免资源冲突的发生，从而提高了AI模型的训练效率。

另外，本公开实施例还提供了一种人工智能模型的训练设备，参见图5所示，可以包括：

处理器501、存储器502、输入装置503和输出装置504。人工智能模型的训练设备中的处理器501的数量可以一个或多个，图5中以一个处理器为例。在本发明的一些实施例中，处理器501、存储器502、输入装置503和输出装置504可通过总线或其它方式连接，其中，图5中以通过总线连接为例。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行人工智能模型的训练设备的各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置503可用于接收输入的数字或字符信息，以及产生与人工智能模型的训练设备的用户设置以及功能控制有关的信号输入。

具体在本实施例中，处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现上述人工智能模型的训练设备的各种功能。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种人工智能模型的训练方法，其特征在于，所述方法包括：

确定待训练人工智能模型的训练任务，以及所述训练任务对应的资源需求信息；

调度所述训练节点执行所述训练任务，以完成对所述待训练人工智能模型的训练。

2.根据权利要求1所述的人工智能模型的训练方法，其特征在于，所述调度所述训练节点执行所述训练任务，以完成对所述待训练人工智能模型的训练之前，还包括：

基于待训练人工智能模型的相关训练程序和运行环境，生成所述待训练人工智能模型的训练镜像；

所述调度所述训练节点执行所述训练任务，以完成对所述待训练人工智能模型的训练，包括：

在所述训练节点上运行所述待训练人工智能模型的训练镜像，以执行所述训练任务，完成对所述待训练人工智能模型的训练。

3.根据权利要求2所述的人工智能模型的训练方法，其特征在于，所述在所述训练节点上运行所述待训练人工智能模型的训练镜像，以执行所述训练任务，从而完成对所述待训练人工智能模型的训练，包括：

在所述训练节点上为所述训练任务创建对应的Pod；其中，所述Pod具有独立的虚拟IP地址；

利用所述Pod运行所述待训练人工智能模型的训练镜像，以执行所述训练任务，完成对所述待训练人工智能模型的训练。

4.根据权利要求1所述的人工智能模型的训练方法，其特征在于，所述基于各个节点当前的资源空闲信息，为所述训练任务分配能够满足所述训练任务对应的资源需求信息的节点，作为所述训练任务的训练节点，包括：

基于各个节点当前的资源空闲信息，确定是否存在满足所述训练任务对应的资源需求信息的节点；

如果存在满足所述训练任务对应的资源需求信息的节点，则基于所述节点当前的资源空闲信息与所述资源需求信息之间的差值信息，确定所述训练任务的训练节点。

5.根据权利要求4所述的人工智能模型的训练方法，其特征在于，所述基于所述节点当前的资源空闲信息与所述资源需求信息之间的差值信息，确定所述训练任务的训练节点，包括：

基于所述节点当前的资源空闲信息与所述资源需求信息之间的差值信息，确定各个节点分别对应的资源差值；

基于所述资源差值，确定所述训练任务的训练节点；其中，所述资源差值越小，所述资源差值对应的节点被确定为所述训练节点的概率越高。

6.根据权利要求5所述的人工智能模型的训练方法，其特征在于，所述基于所述节点当前的资源空闲信息与所述资源需求信息之间的差值信息，确定各个节点分别对应的资源差值，包括：

基于各个资源类型对应的数量级，分别为各个资源类型设置量级系数；

基于各个资源类型对应的量级系数，以及所述节点当前的资源空闲信息与所述资源需求信息之间的差值信息，计算各个节点分别对应的资源差值。

7.根据权利要求5所述的人工智能模型的训练方法，其特征在于，所述基于所述资源差值，确定所述训练任务的训练节点，包括：

8.根据权利要求4所述的人工智能模型的训练方法，其特征在于，所述基于各个节点当前的资源空闲信息，确定是否存在满足所述训练任务对应的资源需求信息的节点，包括：

基于所述训练任务对应的资源需求信息，遍历各个节点当前的资源空闲信息，以确定是否存在满足所述训练任务对应的资源需求信息的节点。

9.根据权利要求4所述的人工智能模型的训练方法，其特征在于，所述方法还包括：

如果不存在能够满足所述训练任务对应的资源需求信息的节点，则基于所述训练任务的优先级与各个节点上当前正在执行的任务的优先级之间的关系，确定所述训练任务的训练节点。

10.根据权利要求9所述的人工智能模型的训练方法，其特征在于，所述基于所述训练任务的优先级与当前正在执行的任务的优先级之间的关系，确定所述训练任务的训练节点，包括：

如果所述训练任务的优先级不高于当前正在执行的任务的优先级，则将所述训练任务设置为等待状态，直到存在能够满足所述训练任务对应的资源需求信息的节点；

如果所述训练任务的优先级高于当前正在执行的至少一个任务的优先级，则基于所述至少一个任务对应的节点，确定所述训练任务的训练节点。

11.根据权利要求10所述的人工智能模型的训练方法，其特征在于，所述基于所述至少一个任务对应的节点，确定所述训练任务的训练节点，包括：

基于所述至少一个任务的优先级，确定所述至少一个任务的排序列表；

基于所述排序列表，从所述至少一个任务对应的节点中，确定所述训练任务的训练节点。

12.根据权利要求11所述的人工智能模型的训练方法，其特征在于，所述基于所述至少一个任务的优先级，确定所述至少一个任务的排序列表，包括：

13.根据权利要求11所述的人工智能模型的训练方法，其特征在于，所述基于所述排序列表，从所述至少一个任务对应的节点中，确定所述训练任务的训练节点，包括：

基于所述排序列表，依次释放所述至少一个任务中每个任务占用的资源，直到得到能够满足所述训练任务对应的资源需求信息的节点；

将所述节点确定为所述训练任务的训练节点。

14.根据权利要求13所述的人工智能模型的训练方法，其特征在于，所述释放所述至少一个任务中每个任务占用的资源之前，还包括：

保存所述任务的运行状态数据。

15.一种人工智能模型的训练装置，其特征在于，所述装置包括：

确定模块，用于确定任一人工智能模型对应的训练任务；其中，所述训练任务具有对应的资源需求信息；

调度模块，用于调度所述训练节点执行所述训练任务，以完成对所述人工智能模型的训练。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现如权利要求1-14任一项所述的方法。

17.一种设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-14任一项所述的方法。