CN113626179B - 一种通用的人工智能模型训练方法及系统 - Google Patents

一种通用的人工智能模型训练方法及系统 Download PDF

Info

Publication number
CN113626179B
CN113626179B CN202010387700.6A CN202010387700A CN113626179B CN 113626179 B CN113626179 B CN 113626179B CN 202010387700 A CN202010387700 A CN 202010387700A CN 113626179 B CN113626179 B CN 113626179B
Authority
CN
China
Prior art keywords
training
computing nodes
trained
model
artificial intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010387700.6A
Other languages
English (en)
Other versions
CN113626179A (zh
Inventor
周浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fiberhome Telecommunication Technologies Co Ltd
Original Assignee
Fiberhome Telecommunication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fiberhome Telecommunication Technologies Co Ltd filed Critical Fiberhome Telecommunication Technologies Co Ltd
Priority to CN202010387700.6A priority Critical patent/CN113626179B/zh
Priority to PCT/CN2020/110175 priority patent/WO2021227293A1/zh
Priority to BR112022017493A priority patent/BR112022017493A2/pt
Publication of CN113626179A publication Critical patent/CN113626179A/zh
Application granted granted Critical
Publication of CN113626179B publication Critical patent/CN113626179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种通用的人工智能模型训练方法及系统,涉及人工智能领域,该方法包括将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中;根据源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像;根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点;在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练。本发明能够提升人工智能模型训练效率,并有效降低了训练成本。

Description

一种通用的人工智能模型训练方法及系统
技术领域
本发明涉及人工智能领域,具体涉及一种通用的人工智能模型训练方法及系统。
背景技术
人工智能,特别是深度学习人工智能,其发展的主要瓶颈之一体现在计算能力上,例如:在一个NVIDIA公司的Tesla P40 GPU(Graphics Processing Unit,图形处理器)上用ResNet50网络去训练ImageNet数据库需要14天左右的时间;用一个串行程序在单核CPU(Central Processing Unit,中央处理器)上训练则可能需要几十年才能完成。
同时,受限于人工智能的发展现况,当前的人工智能模型均是为了解决某一特定领域问题而研究得出的模型,例如Google公司开发的TensorFlow系统、分布式(深度)机器学习社区开发的MXNet深度学习库、微软公司的CNTK深度学习工具包等,由于缺少通用的人工智能模型训练方法,以上模型在训练时,需要分别制定训练场景,极大地降低了人工智能模型的训练效率。
对于一个新的问题,深度学习是一个反复调整模型参数的过程,实验过程中,研究人员需要不断地调整模型,然后再进行实验,每次实验均需等待较长时间,才能得到最终结果,因此,在短时间之内完成人工智能模型的训练对科技的进步具有重大意义。为了提升人工智能模型的训练速度,一般都会采用大量的计算单元进行并行计算,大量计算单元的并行计算环境搭建较为复杂,同时由于训练用计算框架的不同,也加剧了大规模并行模型训练环境搭建复杂度,增加了训练成本。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种通用的人工智能模型训练方法及系统,能够提升人工智能模型训练效率,并有效降低了训练成本。
为达到以上目的,本发明提供一种通用的人工智能模型训练方法包括以下步骤:
将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中;
根据源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,所述镜像仓库用于存储人工智能模型训练时所需的训练镜像,所述训练镜像用于指定人工智能模型训练时所需的计算节点;
根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,所述计算资源集群用于向人工智能模型的训练过程提供训练计算资源;
在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练。
在上述技术方案的基础上,所述梯度特征指源代码所对应待训练人工智能模型的执行环境版本。
在上述技术方案的基础上,所述根据所编辑的源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,具体步骤包括:
应用服务集群接收人工智能模型训练请求,所述应用服务集群为由多个服务器组成的服务器集群,所述应用服务集群以集群方式向所述终端提供人工智能模型训练服务;
应用服务集群对人工智能模型训练请求中的源代码进行分析,提取出源代码的梯度特征;
根据提取出的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像。
在上述技术方案的基础上,所述根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,具体步骤包括,
判断源代码中是否指定计算节点数量:
若是,则判断计算资源集群中是否存在位于同一服务器上的空闲计算节点,若存在,则从位于同一服务器上的空闲计算节点中匹配出对应训练镜像的计算节点,若不存在,则在计算资源集群中新建对应训练镜像的计算节点,且新建的计算节点位于同一服务器上;
若否,则从计算资源集群中的空闲计算节点中选择出默认数量的计算节点,或在计算资源集群中新建默认数量的计算节点,且新建的计算节点位于同一服务器上。
在上述技术方案的基础上,所述在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练,具体为:
当待训练人工智能模型指定计算节点数量时,启动所有选择的或新建的默认数量的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,完成待训练人工智能模型的训练;
当待训练人工智能模型未指定计算节点数量时,启动所有匹配出的或新建的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,进行待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的复杂度,增加或减少训练所需的计算节点数量,完成待训练人工智能模型的训练。
本发明提供一种通用的人工智能模型训练系统,包括:
采集编辑模块,其用于将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中;
第一匹配模块,其用于根据所编辑的源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,所述镜像仓库用于存储人工智能模型训练时所需的训练镜像,所述训练镜像用于指定人工智能模型训练时所需的计算节点;
第二匹配模块,其用于根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,所述计算资源集群用于向人工智能模型的训练过程提供训练计算资源;
训练模块,其用于在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练。
在上述技术方案的基础上,所述梯度特征指源代码所对应待训练人工智能模型的执行环境版本。
在上述技术方案的基础上,所述根据所编辑的源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,具体过程包括:
应用服务集群接收人工智能模型训练请求,所述应用服务集群为由多个服务器组成的服务器集群,所述应用服务集群以集群方式向所述终端提供人工智能模型训练服务;
应用服务集群对人工智能模型训练请求中的源代码进行分析,提取出源代码的梯度特征;
根据提取出的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像。
在上述技术方案的基础上,所述根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,具体过程包括,
判断源代码中是否指定计算节点数量:
若是,则判断计算资源集群中是否存在位于同一服务器上的空闲计算节点,若存在,则从位于同一服务器上的空闲计算节点中匹配出对应训练镜像的计算节点,若不存在,则在计算资源集群中新建对应训练镜像的计算节点,且新建的计算节点位于同一服务器上;
若否,则从计算资源集群中的空闲计算节点中选择出默认数量的计算节点,或在计算资源集群中新建默认数量的计算节点,且新建的计算节点位于同一服务器上。
在上述技术方案的基础上,所述在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练,具体为;
当待训练人工智能模型指定计算节点数量时,启动所有选择的或新建的默认数量的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,完成待训练人工智能模型的训练;
当待训练人工智能模型未指定计算节点数量时,启动所有匹配出的或新建的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,进行待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的复杂度,增加或减少训练所需的计算节点数量,完成待训练人工智能模型的训练。
与现有技术相比,本发明的优点在于:通过采用模型代码仓库、镜像仓库和计算资源集群,根据源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,并根据匹配出的训练镜像,从计算资源集群中匹配出对应的计算节点,使得不同的人工智能模型可以在一个共享的通用系统上同时进行训练,充分利用了软、硬件资源,提升了人工智能模型训练效率,并有效降低了训练成本。
附图说明
图1为本发明实施例中一种通用的人工智能模型训练方法的流程图。
具体实施方式
本发明实施例提供一种通用的人工智能模型训练方法,使得不同的人工智能模型可以在一个共享的通用训练系统上同时进行训练,有效提升人工智能模型的训练效率,并降低训练成本,本发明实施例还相应地提供了一种通用的人工智能模型训练系统。以下结合附图及实施例对本发明作进一步详细说明。
参见图1所示,本发明实施例提供的一种通用的人工智能模型训练方法,包括以下步骤:
S1:将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中。该步骤具体为:
S101:基于待训练人工智能模型,在终端上进行源代码的编辑,所述终端为提供人工智能模型训练服务的终端设备,且终端上提供有用于进行源代码编辑工作的图形用户界面。在进行源代码的编辑过程中,同时进行源代码的调试工作,最后可以得到能够运行的待训练人工智能模型最终源代码。
S102:收集待训练人工智能模型训练时所需的样本数据;
S103:将编辑的源代码和收集的样本数据存储至模型代码仓库。
本发明实施例中,源代码和样本数据在模型代码仓库中的存储没有先后关系。通过采用终端的方式进行源代码的编辑,可以避免人工智能模型开发人员自己搭建复杂的人工智能模型开发环境,有效提升开发效率。
S2:根据所编辑的源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,镜像仓库用于存储人工智能模型训练时所需的训练镜像,训练镜像用于指定人工智能模型训练时所需的计算节点。本发明实施例中的梯度特征指源代码所对应待训练人工智能模型的执行环境版本,通过对源代码进行分析,即可得到待训练人工智能模型的执行环境版本,以便从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像。例如,待训练人工智能模型A的源代码是使用python语言的3.4版本并基于TensorFlow1.13计算框架开发的,则待训练人工智能模型A的执行环境版本为TensorFlow1.13计算框架,及python语言的3.4版本。同时,梯度特征可以从下往上按低级特征到高级特征排列,高级特征可以包含覆盖低级特征,由于Tensorflow1.13版本支持Python3.7,故待训练人工智能模型A梯度特征可以表示为python3.4-python3.7-tensorflow1.13。
在进行训练镜像匹配时,例如,训练镜像A的特征为python3.7-tensorflow1.14,待训练人工智能模型模型A的梯度特征为python3.4-python3.6-tensorflow1.13,虽然训练镜像A的特征与待训练人工智能模型A的特征不直接匹配,但由于训练镜像A的tensorflow1.14的特征高于待训练人工智能模型A的tensorflow1.13的特征,同时python3.7的特征高于python3.6的特征,故训练镜像A可以与待训练人工智能模型A匹配成功。
本发明实施例的镜像仓库中存储有应用服务集群生成的人工智能模型开发、训练所需的镜像模板。应用服务集群为由多个服务器组成的服务器集群,应用服务集群以集群方式向所述终端提供人工智能模型训练服务,进一步的,应用服务集群中还设有容器编排器,容器编排器用于设置和记录计算资源集群中每个计算节点的状态。
S3:根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,计算资源集群用于向人工智能模型的训练过程提供训练计算资源,计算资源集群为物理服务器或虚拟机。
S4:在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练。
本发明实施例的通用的人工智能模型训练方法,通过采用模型代码仓库、镜像仓库和计算资源集群,根据源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,并根据匹配出的训练镜像,从计算资源集群中匹配出对应的计算节点,使得不同的人工智能模型可以在一个共享的通用系统上同时进行训练,充分利用了软、硬件资源,提升了人工智能模型训练效率,并有效降低了训练成本。
可选地,在图1对应实施例的基础上,本发明实施例提供的一种通用的人工智能模型训练方法的第一个可选实施例中,根据所编辑的源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,具体步骤包括:
S201:应用服务集群接收人工智能模型训练请求,应用服务集群为由多个服务器组成的服务器集群,应用服务集群以集群方式向所述终端提供人工智能模型训练服务;
S202:应用服务集群对人工智能模型训练请求中的源代码进行分析,提取出源代码的梯度特征。
源代码中的梯度特征,按低级特征到高级特征的顺序排列,高级特征可以包含覆盖低级特征,例如,源代码是使用python语言的3.4版本并基于TensorFlow1.13计算框架开发的,Tensorflow1.13版本支持Python3.7,则该源代码所对应待训练人工智能模型的梯度特征可以为:python3.4-python3.7-tensorflow1.13。
S203:根据提取出的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像。
进一步,若镜像仓库中没有相匹配的训练镜像,在可以根据源代码的梯度特征自动生成训练镜像,存放于镜像仓库中。例如,待训练人工智能模型A的梯度特征为python3.4-python3.7-tensorflow1.13,则新建符合python3.7-tensorflow1.13的训练镜像即可,特征python3.7覆盖特征python3.4。
可选地,在上述一种通用的人工智能模型训练方法第一个可选实施例的基础上,本发明实施例的一种通用的人工智能模型训练方法的第二个可选实施例中,
根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,具体步骤包括,
判断源代码中是否指定计算节点数量:
若是,则判断计算资源集群中是否存在位于同一服务器上的空闲计算节点,若存在,则从位于同一服务器上的空闲计算节点中匹配出对应训练镜像的计算节点,若不存在,则在计算资源集群中新建对应训练镜像的计算节点,且新建的计算节点位于同一服务器上;
若否,则从计算资源集群中的空闲计算节点中选择出默认数量的计算节点,或在计算资源集群中新建默认数量的计算节点,且新建的计算节点位于同一服务器上。
源代码中指定有计算节点数量,表明该源代码所对应的计算节点需满足亲和性要求,亲和性要求是指计算节点位于同一服务器上。当然,在实际的应用中,有时很难保证所需要的计算节点都位于同一服务器上,故此时可以放宽要求,如保证所需要的计算节点位于同一机架的服务器上,或位于同一数据中心的服务器上,尽量避免跨网络通信,以免降低训练效率。
在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练,具体为:
当待训练人工智能模型指定计算节点数量时,启动所有选择的或新建的默认数量的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,进行待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的复杂度,增加或减少训练所需的计算节点数量,完成待训练人工智能模型的训练。例如,若待训练人工智能模型较为复杂,则增加计算节点数量。
当待训练人工智能模型未指定计算节点数量时,启动所有匹配出的或新建的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,进行待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的复杂度,增加或减少训练所需的计算节点数量,完成待训练人工智能模型的训练。
本发明实施例提供的一种通用的人工智能模型训练系统,包括采集编辑模块、第一匹配模块、第二匹配模块和训练模块。
采集编辑模块用于将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中;第一匹配模块用于根据所编辑的源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,所述镜像仓库用于存储人工智能模型训练时所需的训练镜像,所述训练镜像用于指定人工智能模型训练时所需的计算节点;第二匹配模块用于根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,所述计算资源集群用于向人工智能模型的训练过程提供训练计算资源;训练模块用于在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练。梯度特征指源代码所对应待训练人工智能模型的执行环境版本
根据所编辑的源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,具体过程包括:
应用服务集群接收人工智能模型训练请求,所述应用服务集群为由多个服务器组成的服务器集群,所述应用服务集群以集群方式向所述终端提供人工智能模型训练服务;
应用服务集群对人工智能模型训练请求中的源代码进行分析,提取出源代码的梯度特征;
根据提取出的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像。
根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,具体过程包括,
判断源代码中是否指定计算节点数量:
若是,则判断计算资源集群中是否存在位于同一服务器上的空闲计算节点,若存在,则从位于同一服务器上的空闲计算节点中匹配出对应训练镜像的计算节点,若不存在,则在计算资源集群中新建对应训练镜像的计算节点,且新建的计算节点位于同一服务器上;
若否,则从计算资源集群中的空闲计算节点中选择出默认数量的计算节点,或在计算资源集群中新建默认数量的计算节点,且新建的计算节点位于同一服务器上。
在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练,具体为;
当待训练人工智能模型指定计算节点数量时,启动所有选择的或新建的默认数量的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,进行待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的复杂度,增加或减少训练所需的计算节点数量,完成待训练人工智能模型的训练;
当待训练人工智能模型未指定计算节点数量时,启动所有匹配出的或新建的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,进行待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的复杂度,增加或减少训练所需的计算节点数量,完成待训练人工智能模型的训练。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (8)

1.一种通用的人工智能模型训练方法,其特征在于,包括以下步骤:
将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中;
根据源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,所述镜像仓库用于存储人工智能模型训练时所需的训练镜像,所述训练镜像用于指定人工智能模型训练时所需的计算节点;
根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,所述计算资源集群用于向人工智能模型的训练过程提供训练计算资源;
在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练;
其中,所述梯度特征指源代码所对应待训练人工智能模型的执行环境版本。
2.如权利要求1所述的一种通用的人工智能模型训练方法,其特征在于,所述根据所编辑的源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,具体步骤包括:
应用服务集群接收人工智能模型训练请求,所述应用服务集群为由多个服务器组成的服务器集群,所述应用服务集群以集群方式向终端提供人工智能模型训练服务;
应用服务集群对人工智能模型训练请求中的源代码进行分析,提取出源代码的梯度特征;
根据提取出的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像。
3.如权利要求2所述的一种通用的人工智能模型训练方法,其特征在于,所述根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,具体步骤包括,
判断源代码中是否指定计算节点数量:
若是,则判断计算资源集群中是否存在位于同一服务器上的空闲计算节点,若存在,则从位于同一服务器上的空闲计算节点中匹配出对应训练镜像的计算节点,若不存在,则在计算资源集群中新建对应训练镜像的计算节点,且新建的计算节点位于同一服务器上;
若否,则从计算资源集群中的空闲计算节点中选择出默认数量的计算节点,或在计算资源集群中新建默认数量的计算节点,且新建的计算节点位于同一服务器上。
4.如权利要求3所述的一种通用的人工智能模型训练方法,其特征在于,所述在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练,具体为:
当待训练人工智能模型指定计算节点数量时,启动所有选择的或新建的默认数量的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,完成待训练人工智能模型的训练;
当待训练人工智能模型未指定计算节点数量时,启动所有匹配出的或新建的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,进行待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的复杂度,增加或减少训练所需的计算节点数量,完成待训练人工智能模型的训练。
5.一种通用的人工智能模型训练系统,其特征在于,包括:
采集编辑模块,其用于将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中;
第一匹配模块,其用于根据所编辑的源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,所述镜像仓库用于存储人工智能模型训练时所需的训练镜像,所述训练镜像用于指定人工智能模型训练时所需的计算节点;
第二匹配模块,其用于根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,所述计算资源集群用于向人工智能模型的训练过程提供训练计算资源;
训练模块,其用于在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练;
其中,所述梯度特征指源代码所对应待训练人工智能模型的执行环境版本。
6.如权利要求5所述的一种通用的人工智能模型训练系统,其特征在于,所述根据所编辑的源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,具体过程包括:
应用服务集群接收人工智能模型训练请求,所述应用服务集群为由多个服务器组成的服务器集群,所述应用服务集群以集群方式向终端提供人工智能模型训练服务;
应用服务集群对人工智能模型训练请求中的源代码进行分析,提取出源代码的梯度特征;
根据提取出的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像。
7.如权利要求6所述的一种通用的人工智能模型训练系统,其特征在于,所述根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,具体过程包括,
判断源代码中是否指定计算节点数量:
若是,则判断计算资源集群中是否存在位于同一服务器上的空闲计算节点,若存在,则从位于同一服务器上的空闲计算节点中匹配出对应训练镜像的计算节点,若不存在,则在计算资源集群中新建对应训练镜像的计算节点,且新建的计算节点位于同一服务器上;
若否,则从计算资源集群中的空闲计算节点中选择出默认数量的计算节点,或在计算资源集群中新建默认数量的计算节点,且新建的计算节点位于同一服务器上。
8.如权利要求7所述的一种通用的人工智能模型训练系统,其特征在于,所述在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练,具体为;
当待训练人工智能模型指定计算节点数量时,启动所有选择的或新建的默认数量的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,完成待训练人工智能模型的训练;
当待训练人工智能模型未指定计算节点数量时,启动所有匹配出的或新建的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,进行待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的复杂度,增加或减少训练所需的计算节点数量,完成待训练人工智能模型的训练。
CN202010387700.6A 2020-05-09 2020-05-09 一种通用的人工智能模型训练方法及系统 Active CN113626179B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010387700.6A CN113626179B (zh) 2020-05-09 2020-05-09 一种通用的人工智能模型训练方法及系统
PCT/CN2020/110175 WO2021227293A1 (zh) 2020-05-09 2020-08-20 一种通用的人工智能模型训练方法及系统
BR112022017493A BR112022017493A2 (pt) 2020-05-09 2020-08-20 Método e sistema de treinamento universal para modelos de inteligência artificial

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010387700.6A CN113626179B (zh) 2020-05-09 2020-05-09 一种通用的人工智能模型训练方法及系统

Publications (2)

Publication Number Publication Date
CN113626179A CN113626179A (zh) 2021-11-09
CN113626179B true CN113626179B (zh) 2023-08-22

Family

ID=78377497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010387700.6A Active CN113626179B (zh) 2020-05-09 2020-05-09 一种通用的人工智能模型训练方法及系统

Country Status (3)

Country Link
CN (1) CN113626179B (zh)
BR (1) BR112022017493A2 (zh)
WO (1) WO2021227293A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2477141A1 (en) * 2011-01-12 2012-07-18 Fujitsu Limited Processor node, artificial neural network and method of operation of an artificial neural network
CN107885762A (zh) * 2017-09-19 2018-04-06 北京百度网讯科技有限公司 智能大数据系统、提供智能大数据服务的方法和设备
CN109508238A (zh) * 2019-01-05 2019-03-22 咪付(广西)网络技术有限公司 一种用于深度学习的资源管理系统及方法
CN110413294A (zh) * 2019-08-06 2019-11-05 中国工商银行股份有限公司 服务发布系统、方法、装置和设备
CN111026436A (zh) * 2019-12-09 2020-04-17 支付宝(杭州)信息技术有限公司 模型联合训练方法及装置
CN111124634A (zh) * 2019-12-06 2020-05-08 广东浪潮大数据研究有限公司 一种训练方法、装置及电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463324A (zh) * 2014-11-21 2015-03-25 长沙马沙电子科技有限公司 一种基于大规模高性能集群的卷积神经网络并行处理方法
CN108647785A (zh) * 2018-05-17 2018-10-12 普强信息技术(北京)有限公司 一种神经网络自动建模方法、装置及存储介质
CN109635918A (zh) * 2018-10-30 2019-04-16 银河水滴科技(北京)有限公司 基于云平台和预设模型的神经网络自动训练方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2477141A1 (en) * 2011-01-12 2012-07-18 Fujitsu Limited Processor node, artificial neural network and method of operation of an artificial neural network
CN107885762A (zh) * 2017-09-19 2018-04-06 北京百度网讯科技有限公司 智能大数据系统、提供智能大数据服务的方法和设备
CN109508238A (zh) * 2019-01-05 2019-03-22 咪付(广西)网络技术有限公司 一种用于深度学习的资源管理系统及方法
CN110413294A (zh) * 2019-08-06 2019-11-05 中国工商银行股份有限公司 服务发布系统、方法、装置和设备
CN111124634A (zh) * 2019-12-06 2020-05-08 广东浪潮大数据研究有限公司 一种训练方法、装置及电子设备和存储介质
CN111026436A (zh) * 2019-12-09 2020-04-17 支付宝(杭州)信息技术有限公司 模型联合训练方法及装置

Also Published As

Publication number Publication date
CN113626179A (zh) 2021-11-09
BR112022017493A2 (pt) 2022-11-29
WO2021227293A1 (zh) 2021-11-18

Similar Documents

Publication Publication Date Title
JP2022003576A (ja) 制御パルス生成方法、装置、システム、電子デバイス、記憶媒体及びプログラム
CN109993299A (zh) 数据训练方法及装置、存储介质、电子装置
US20220092439A1 (en) Decoupled architecture for artificial intelligence model management
CN105830049A (zh) 自动化实验平台
CN1836213A (zh) 服务器间的透明会话迁移
CN109740765B (zh) 一种基于亚马逊网络服务器的机器学习系统搭建方法
CN105512162A (zh) 一种基于Storm的流数据实时智能化处理框架
CN114356578B (zh) 自然语言处理模型的并行计算方法、装置、设备及介质
CN113312175A (zh) 一种算子确定、运行方法及装置
CN114995994A (zh) 任务处理方法及系统
EP4222598A1 (en) Optimizing job runtimes via prediction-based token allocation
CN114968559A (zh) 基于lsf的多主机多gpu分布式布置深度学习模型的方法
CN113626179B (zh) 一种通用的人工智能模型训练方法及系统
Wang et al. Auto-MAP: A DQN framework for exploring distributed execution plans for DNN workloads
Tong et al. Study on mindspore deep learning framework
CN115827225A (zh) 异构运算的分配方法、模型训练方法、装置、芯片、设备及介质
CN114816719A (zh) 多任务模型的训练方法及装置
Yi et al. Optimizing DNN compilation for distributed training with joint OP and tensor fusion
CN115292044A (zh) 数据处理方法、装置、电子设备及存储介质
CN116795524A (zh) 任务处理方法、装置、计算机设备、存储介质及程序产品
CN113626035A (zh) 基于tvm面向risc-v设备的神经网络编译方法
CN111353585A (zh) 神经网络模型的结构搜索方法和装置
CN115686534B (zh) 一种基于动态二进制翻译的跨cpu桌面终端虚拟化方法
CN111882056B (zh) 一种基于副本模式的深度学习训练任务管控方法及装置
CN117245645A (zh) 机器人及其控制方法、装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant