CN113626179B

CN113626179B - 一种通用的人工智能模型训练方法及系统

Info

Publication number: CN113626179B
Application number: CN202010387700.6A
Authority: CN
Inventors: 周浩
Original assignee: Fiberhome Telecommunication Technologies Co Ltd
Current assignee: Fiberhome Telecommunication Technologies Co Ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2023-08-22
Anticipated expiration: 2040-05-09
Also published as: CN113626179A; BR112022017493A2; WO2021227293A1

Abstract

本发明公开了一种通用的人工智能模型训练方法及系统，涉及人工智能领域，该方法包括将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中；根据源代码的梯度特征，从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像；根据匹配出的训练镜像，从计算资源集群中匹配出对应该训练镜像的计算节点；在匹配出的计算节点上启动待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的特征，动态调整所需的计算节点，完成待训练人工智能模型的训练。本发明能够提升人工智能模型训练效率，并有效降低了训练成本。

Description

一种通用的人工智能模型训练方法及系统

技术领域

本发明涉及人工智能领域，具体涉及一种通用的人工智能模型训练方法及系统。

背景技术

人工智能，特别是深度学习人工智能，其发展的主要瓶颈之一体现在计算能力上，例如：在一个NVIDIA公司的Tesla P40 GPU(Graphics Processing Unit，图形处理器)上用ResNet50网络去训练ImageNet数据库需要14天左右的时间；用一个串行程序在单核CPU(Central Processing Unit，中央处理器)上训练则可能需要几十年才能完成。

同时，受限于人工智能的发展现况，当前的人工智能模型均是为了解决某一特定领域问题而研究得出的模型，例如Google公司开发的TensorFlow系统、分布式(深度)机器学习社区开发的MXNet深度学习库、微软公司的CNTK深度学习工具包等，由于缺少通用的人工智能模型训练方法，以上模型在训练时，需要分别制定训练场景，极大地降低了人工智能模型的训练效率。

对于一个新的问题，深度学习是一个反复调整模型参数的过程，实验过程中，研究人员需要不断地调整模型，然后再进行实验，每次实验均需等待较长时间，才能得到最终结果，因此，在短时间之内完成人工智能模型的训练对科技的进步具有重大意义。为了提升人工智能模型的训练速度，一般都会采用大量的计算单元进行并行计算，大量计算单元的并行计算环境搭建较为复杂，同时由于训练用计算框架的不同，也加剧了大规模并行模型训练环境搭建复杂度，增加了训练成本。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种通用的人工智能模型训练方法及系统，能够提升人工智能模型训练效率，并有效降低了训练成本。

为达到以上目的，本发明提供一种通用的人工智能模型训练方法包括以下步骤：

将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中；

根据源代码的梯度特征，从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像，所述镜像仓库用于存储人工智能模型训练时所需的训练镜像，所述训练镜像用于指定人工智能模型训练时所需的计算节点；

根据匹配出的训练镜像，从计算资源集群中匹配出对应该训练镜像的计算节点，所述计算资源集群用于向人工智能模型的训练过程提供训练计算资源；

在匹配出的计算节点上启动待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的特征，动态调整所需的计算节点，完成待训练人工智能模型的训练。

在上述技术方案的基础上，所述梯度特征指源代码所对应待训练人工智能模型的执行环境版本。

在上述技术方案的基础上，所述根据所编辑的源代码的梯度特征，从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像，具体步骤包括：

应用服务集群接收人工智能模型训练请求，所述应用服务集群为由多个服务器组成的服务器集群，所述应用服务集群以集群方式向所述终端提供人工智能模型训练服务；

应用服务集群对人工智能模型训练请求中的源代码进行分析，提取出源代码的梯度特征；

根据提取出的梯度特征，从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像。

在上述技术方案的基础上，所述根据匹配出的训练镜像，从计算资源集群中匹配出对应该训练镜像的计算节点，具体步骤包括，

判断源代码中是否指定计算节点数量：

若是，则判断计算资源集群中是否存在位于同一服务器上的空闲计算节点，若存在，则从位于同一服务器上的空闲计算节点中匹配出对应训练镜像的计算节点，若不存在，则在计算资源集群中新建对应训练镜像的计算节点，且新建的计算节点位于同一服务器上；

若否，则从计算资源集群中的空闲计算节点中选择出默认数量的计算节点，或在计算资源集群中新建默认数量的计算节点，且新建的计算节点位于同一服务器上。

在上述技术方案的基础上，所述在匹配出的计算节点上启动待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的特征，动态调整所需的计算节点，完成待训练人工智能模型的训练，具体为：

当待训练人工智能模型指定计算节点数量时，启动所有选择的或新建的默认数量的计算节点，计算节点获取模型代码仓库中存储的源代码和样本数据，完成待训练人工智能模型的训练；

当待训练人工智能模型未指定计算节点数量时，启动所有匹配出的或新建的计算节点，计算节点获取模型代码仓库中存储的源代码和样本数据，进行待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的复杂度，增加或减少训练所需的计算节点数量，完成待训练人工智能模型的训练。

本发明提供一种通用的人工智能模型训练系统，包括：

采集编辑模块，其用于将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中；

第一匹配模块，其用于根据所编辑的源代码的梯度特征，从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像，所述镜像仓库用于存储人工智能模型训练时所需的训练镜像，所述训练镜像用于指定人工智能模型训练时所需的计算节点；

第二匹配模块，其用于根据匹配出的训练镜像，从计算资源集群中匹配出对应该训练镜像的计算节点，所述计算资源集群用于向人工智能模型的训练过程提供训练计算资源；

训练模块，其用于在匹配出的计算节点上启动待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的特征，动态调整所需的计算节点，完成待训练人工智能模型的训练。

在上述技术方案的基础上，所述根据所编辑的源代码的梯度特征，从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像，具体过程包括：

在上述技术方案的基础上，所述根据匹配出的训练镜像，从计算资源集群中匹配出对应该训练镜像的计算节点，具体过程包括，

判断源代码中是否指定计算节点数量：

在上述技术方案的基础上，所述在匹配出的计算节点上启动待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的特征，动态调整所需的计算节点，完成待训练人工智能模型的训练，具体为；

与现有技术相比，本发明的优点在于：通过采用模型代码仓库、镜像仓库和计算资源集群，根据源代码的梯度特征，从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像，并根据匹配出的训练镜像，从计算资源集群中匹配出对应的计算节点，使得不同的人工智能模型可以在一个共享的通用系统上同时进行训练，充分利用了软、硬件资源，提升了人工智能模型训练效率，并有效降低了训练成本。

附图说明

图1为本发明实施例中一种通用的人工智能模型训练方法的流程图。

具体实施方式

本发明实施例提供一种通用的人工智能模型训练方法，使得不同的人工智能模型可以在一个共享的通用训练系统上同时进行训练，有效提升人工智能模型的训练效率，并降低训练成本，本发明实施例还相应地提供了一种通用的人工智能模型训练系统。以下结合附图及实施例对本发明作进一步详细说明。

参见图1所示，本发明实施例提供的一种通用的人工智能模型训练方法，包括以下步骤：

S1：将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中。该步骤具体为：

S101：基于待训练人工智能模型，在终端上进行源代码的编辑，所述终端为提供人工智能模型训练服务的终端设备，且终端上提供有用于进行源代码编辑工作的图形用户界面。在进行源代码的编辑过程中，同时进行源代码的调试工作，最后可以得到能够运行的待训练人工智能模型最终源代码。

S102：收集待训练人工智能模型训练时所需的样本数据；

S103：将编辑的源代码和收集的样本数据存储至模型代码仓库。

本发明实施例中，源代码和样本数据在模型代码仓库中的存储没有先后关系。通过采用终端的方式进行源代码的编辑，可以避免人工智能模型开发人员自己搭建复杂的人工智能模型开发环境，有效提升开发效率。

S2：根据所编辑的源代码的梯度特征，从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像，镜像仓库用于存储人工智能模型训练时所需的训练镜像，训练镜像用于指定人工智能模型训练时所需的计算节点。本发明实施例中的梯度特征指源代码所对应待训练人工智能模型的执行环境版本，通过对源代码进行分析，即可得到待训练人工智能模型的执行环境版本，以便从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像。例如，待训练人工智能模型A的源代码是使用python语言的3.4版本并基于TensorFlow1.13计算框架开发的，则待训练人工智能模型A的执行环境版本为TensorFlow1.13计算框架，及python语言的3.4版本。同时，梯度特征可以从下往上按低级特征到高级特征排列，高级特征可以包含覆盖低级特征，由于Tensorflow1.13版本支持Python3.7，故待训练人工智能模型A梯度特征可以表示为python3.4-python3.7-tensorflow1.13。

在进行训练镜像匹配时，例如，训练镜像A的特征为python3.7-tensorflow1.14，待训练人工智能模型模型A的梯度特征为python3.4-python3.6-tensorflow1.13，虽然训练镜像A的特征与待训练人工智能模型A的特征不直接匹配，但由于训练镜像A的tensorflow1.14的特征高于待训练人工智能模型A的tensorflow1.13的特征，同时python3.7的特征高于python3.6的特征，故训练镜像A可以与待训练人工智能模型A匹配成功。

本发明实施例的镜像仓库中存储有应用服务集群生成的人工智能模型开发、训练所需的镜像模板。应用服务集群为由多个服务器组成的服务器集群，应用服务集群以集群方式向所述终端提供人工智能模型训练服务，进一步的，应用服务集群中还设有容器编排器，容器编排器用于设置和记录计算资源集群中每个计算节点的状态。

S3：根据匹配出的训练镜像，从计算资源集群中匹配出对应该训练镜像的计算节点，计算资源集群用于向人工智能模型的训练过程提供训练计算资源，计算资源集群为物理服务器或虚拟机。

S4：在匹配出的计算节点上启动待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的特征，动态调整所需的计算节点，完成待训练人工智能模型的训练。

本发明实施例的通用的人工智能模型训练方法，通过采用模型代码仓库、镜像仓库和计算资源集群，根据源代码的梯度特征，从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像，并根据匹配出的训练镜像，从计算资源集群中匹配出对应的计算节点，使得不同的人工智能模型可以在一个共享的通用系统上同时进行训练，充分利用了软、硬件资源，提升了人工智能模型训练效率，并有效降低了训练成本。

可选地，在图1对应实施例的基础上，本发明实施例提供的一种通用的人工智能模型训练方法的第一个可选实施例中，根据所编辑的源代码的梯度特征，从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像，具体步骤包括：

S201：应用服务集群接收人工智能模型训练请求，应用服务集群为由多个服务器组成的服务器集群，应用服务集群以集群方式向所述终端提供人工智能模型训练服务；

S202：应用服务集群对人工智能模型训练请求中的源代码进行分析，提取出源代码的梯度特征。

源代码中的梯度特征，按低级特征到高级特征的顺序排列，高级特征可以包含覆盖低级特征，例如，源代码是使用python语言的3.4版本并基于TensorFlow1.13计算框架开发的，Tensorflow1.13版本支持Python3.7，则该源代码所对应待训练人工智能模型的梯度特征可以为：python3.4-python3.7-tensorflow1.13。

S203：根据提取出的梯度特征，从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像。

进一步，若镜像仓库中没有相匹配的训练镜像，在可以根据源代码的梯度特征自动生成训练镜像，存放于镜像仓库中。例如，待训练人工智能模型A的梯度特征为python3.4-python3.7-tensorflow1.13，则新建符合python3.7-tensorflow1.13的训练镜像即可，特征python3.7覆盖特征python3.4。

可选地，在上述一种通用的人工智能模型训练方法第一个可选实施例的基础上，本发明实施例的一种通用的人工智能模型训练方法的第二个可选实施例中，

根据匹配出的训练镜像，从计算资源集群中匹配出对应该训练镜像的计算节点，具体步骤包括，

判断源代码中是否指定计算节点数量：

源代码中指定有计算节点数量，表明该源代码所对应的计算节点需满足亲和性要求，亲和性要求是指计算节点位于同一服务器上。当然，在实际的应用中，有时很难保证所需要的计算节点都位于同一服务器上，故此时可以放宽要求，如保证所需要的计算节点位于同一机架的服务器上，或位于同一数据中心的服务器上，尽量避免跨网络通信，以免降低训练效率。

在匹配出的计算节点上启动待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的特征，动态调整所需的计算节点，完成待训练人工智能模型的训练，具体为：

当待训练人工智能模型指定计算节点数量时，启动所有选择的或新建的默认数量的计算节点，计算节点获取模型代码仓库中存储的源代码和样本数据，进行待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的复杂度，增加或减少训练所需的计算节点数量，完成待训练人工智能模型的训练。例如，若待训练人工智能模型较为复杂，则增加计算节点数量。

本发明实施例提供的一种通用的人工智能模型训练系统，包括采集编辑模块、第一匹配模块、第二匹配模块和训练模块。

采集编辑模块用于将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中；第一匹配模块用于根据所编辑的源代码的梯度特征，从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像，所述镜像仓库用于存储人工智能模型训练时所需的训练镜像，所述训练镜像用于指定人工智能模型训练时所需的计算节点；第二匹配模块用于根据匹配出的训练镜像，从计算资源集群中匹配出对应该训练镜像的计算节点，所述计算资源集群用于向人工智能模型的训练过程提供训练计算资源；训练模块用于在匹配出的计算节点上启动待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的特征，动态调整所需的计算节点，完成待训练人工智能模型的训练。梯度特征指源代码所对应待训练人工智能模型的执行环境版本

根据所编辑的源代码的梯度特征，从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像，具体过程包括：

根据匹配出的训练镜像，从计算资源集群中匹配出对应该训练镜像的计算节点，具体过程包括，

判断源代码中是否指定计算节点数量：

在匹配出的计算节点上启动待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的特征，动态调整所需的计算节点，完成待训练人工智能模型的训练，具体为；

当待训练人工智能模型指定计算节点数量时，启动所有选择的或新建的默认数量的计算节点，计算节点获取模型代码仓库中存储的源代码和样本数据，进行待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的复杂度，增加或减少训练所需的计算节点数量，完成待训练人工智能模型的训练；

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种通用的人工智能模型训练方法，其特征在于，包括以下步骤：

在匹配出的计算节点上启动待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的特征，动态调整所需的计算节点，完成待训练人工智能模型的训练；

其中，所述梯度特征指源代码所对应待训练人工智能模型的执行环境版本。

2.如权利要求1所述的一种通用的人工智能模型训练方法，其特征在于，所述根据所编辑的源代码的梯度特征，从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像，具体步骤包括：

应用服务集群接收人工智能模型训练请求，所述应用服务集群为由多个服务器组成的服务器集群，所述应用服务集群以集群方式向终端提供人工智能模型训练服务；

3.如权利要求2所述的一种通用的人工智能模型训练方法，其特征在于，所述根据匹配出的训练镜像，从计算资源集群中匹配出对应该训练镜像的计算节点，具体步骤包括，

判断源代码中是否指定计算节点数量：

4.如权利要求3所述的一种通用的人工智能模型训练方法，其特征在于，所述在匹配出的计算节点上启动待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的特征，动态调整所需的计算节点，完成待训练人工智能模型的训练，具体为：

5.一种通用的人工智能模型训练系统，其特征在于，包括：

训练模块，其用于在匹配出的计算节点上启动待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的特征，动态调整所需的计算节点，完成待训练人工智能模型的训练；

6.如权利要求5所述的一种通用的人工智能模型训练系统，其特征在于，所述根据所编辑的源代码的梯度特征，从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像，具体过程包括：

7.如权利要求6所述的一种通用的人工智能模型训练系统，其特征在于，所述根据匹配出的训练镜像，从计算资源集群中匹配出对应该训练镜像的计算节点，具体过程包括，

判断源代码中是否指定计算节点数量：

8.如权利要求7所述的一种通用的人工智能模型训练系统，其特征在于，所述在匹配出的计算节点上启动待训练人工智能模型的训练，并在训练过程中根据待训练人工智能模型的特征，动态调整所需的计算节点，完成待训练人工智能模型的训练，具体为；