CN110389834A - 一种用于提交深度学习训练任务的方法和装置 - Google Patents

一种用于提交深度学习训练任务的方法和装置 Download PDF

Info

Publication number
CN110389834A
CN110389834A CN201910578812.7A CN201910578812A CN110389834A CN 110389834 A CN110389834 A CN 110389834A CN 201910578812 A CN201910578812 A CN 201910578812A CN 110389834 A CN110389834 A CN 110389834A
Authority
CN
China
Prior art keywords
training
task
deep learning
mission
training mission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910578812.7A
Other languages
English (en)
Other versions
CN110389834B (zh
Inventor
王超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wave Intelligent Technology Co Ltd
Original Assignee
Suzhou Wave Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wave Intelligent Technology Co Ltd filed Critical Suzhou Wave Intelligent Technology Co Ltd
Priority to CN201910578812.7A priority Critical patent/CN110389834B/zh
Publication of CN110389834A publication Critical patent/CN110389834A/zh
Application granted granted Critical
Publication of CN110389834B publication Critical patent/CN110389834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用于提交深度学习训练任务的方法。该方法包括:在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量;采用任务解析模块解析所提交的深度学习训练任务,并且根据由算法开发人员选定的训练规格,为经解析的深度学习训练任务分配计算机群的资源。通过采用任务解析模块解析深度学习训练任务和分配计算机群的资源,可以减少算法开发人员配置和监控训练任务所花费的时间精力,降低配置和监控训练任务的难度。还公开了对应的用于提交深度学习训练任务的装置。

Description

一种用于提交深度学习训练任务的方法和装置
技术领域
本发明涉及深度学习技术,尤指一种用于提交深度学习训练任务的方法和装置。
背景技术
深度学习训练任务,尤其是大规模和长时间训练任务提交的过程是十分繁琐,对于单机单卡步骤较为简单,然而单机多卡和多机多卡的分布式训练会让算法开发人员花费大量时间去配置和监控训练任务。
发明内容
为了解决上述技术问题,本发明提供了用于提交调试深度学习训练任务的方法和装置,能够减少算法开发人员配置训练任务的时间和难度。
为了达到本发明目的,本发明提供了一种用于提交深度学习训练任务的方法,该方法包括:
在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量;
采用任务解析模块解析所提交的深度学习训练任务,并且根据由算法开发人员选定的训练规格,为经解析的深度学习训练任务分配计算机群的资源。
在一个可选的实施例中,在在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量的步骤之前,该方法还包括:
预设任务解析模块,以使任务解析模块采用其中的训练任务模板解析深度学习训练任务并且为其分配计算机群的资源;其中,通过以下方式预设任务解析模块;
在任务解析模块中设置候选训练方式;
在任务解析模块中设置候选框架;
设置候选训练方式与候选框架的对应关系。
在一个可选的实施例中,采用任务解析模块解析所提交的深度学习训练任务,并且根据由算法开发人员选定的训练规格,为经解析的深度学习训练任务分配计算机群的资源的步骤包括:
采用任务解析模块获取由算法开发人员选定的训练规格以及训练脚本;
采用任务解析模块解析深度学习训练任务的训练方式、框架以及深度学习训练任务的训练方式和框架的对应关系;
生成针对深度学习训练任务的训练任务模板,以用于为经解析的深度学习训练任务分配计算机群的资源。
在一个可选的实施例中,在采用任务解析模块以选定的训练规格解析训练任务,并且将训练任务分配到相应的计算资源的步骤之后,该方法还包括:
在训练界面中呈现训练情况,并且接收算法开发人员对于深度学习训练任务的操作指令;
根据接收到的操作指令,对训练任务进行相应的操作;其中,操作包括:暂停训练任务、终止训练任务、修改训练任务的训练脚本以及重新启动训练任务。
在一个可选的实施例中,该方法还包括:
在训练界面中呈现在下列各项中的一项或更多项:深度学习训练任务的任务列表、任务提交区和交互式代码编辑区。
一方面,本发明实施例提供了一种用于提交深度学习训练任务的装置,包括存储器和处理器,
存储器用于存储计算机可读指令;
处理器用于执行计算机可读指令,以执行如下操作:
在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量;
采用任务解析模块解析所提交的深度学习训练任务,并且根据由算法开发人员选定的训练规格,为经解析的深度学习训练任务分配计算机群的资源。
在一个可选的实施例中,在在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量的操作之前,处理器还执行下列操作:
预设任务解析模块,以使任务解析模块采用其中的训练任务模板解析深度学习训练任务并且为其分配计算机群的资源;其中,通过以下方式预设任务解析模块;
在任务解析模块中设置候选训练方式;
在任务解析模块中设置候选框架;
设置候选训练方式与候选框架的对应关系。
在一个可选的实施例中,采用任务解析模块解析所提交的深度学习训练任务,并且根据由算法开发人员选定的训练规格,为经解析的深度学习训练任务分配计算机群的资源的操作包括:
采用任务解析模块获取由算法开发人员选定的训练规格以及训练脚本;
采用任务解析模块解析深度学习训练任务的训练方式、框架以及深度学习训练任务的训练方式和框架的对应关系;
生成针对深度学习训练任务的训练任务模板,以用于为经解析的深度学习训练任务分配计算机群的资源。
在一个可选的实施例中,在采用任务解析模块以选定的训练规格解析训练任务,并且将训练任务分配到相应的计算资源的操作之后,处理器还执行下列操作:
在训练界面中呈现训练情况,并且接收算法开发人员对于深度学习训练任务的操作指令;
根据接收到的操作指令,对训练任务进行相应的操作;其中,操作包括:暂停训练任务、终止训练任务、修改训练任务的训练脚本以及重新启动训练任务。
在一个可选的实施例中,处理器还执行下列操作:
使训练界面呈现在下列各项中的一项或更多项:深度学习训练任务的任务列表、任务提交区和交互式代码编辑区。
本发明实施例的有益效果在于,通过采用任务解析模块解析深度学习训练任务和分配计算机群的资源,可以减少算法开发人员配置和监控训练任务所花费的时间精力,降低配置和监控训练任务的难度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例提供的用于提交调试深度学习训练任务的方法的流程图;
图2为本发明实施例提供的用于提交调试深度学习训练任务的装置的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
为了解决上述技术问题,一方面,本发明实施例提供了一种用于提交调试深度学习训练任务的方法,如图1所示,该方法包括步骤S101-步骤S103。
步骤S101,在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量。
其中,计算资源视图用于显示计算机群的可用资源的类型以及数量,该计算机群用于执行深度学习任务,该计算机群的可用资源的类型以及数量可以是通过容器编排引擎Kubernetes监控得知的。Kubernetes支持自动化部署、大规模可伸缩、应用容器化管理。在生产环境中部署一个应用程序时,通常要部署该应用的多个实例以便对应用请求进行负载均衡;为此,Kubernetes能够管理和控制集群的可用资源。在此,Kubernetes可以用于监控计算机群当前已经占用的资源的类型以及数量,并且可以用于监控计算机群当前可用的资源的类型以及数量。通过在计算资源视图中显示计算机群当前可用资源的类型以及数量,可以有助于算法开发人员调试深度学习训练任务的代码,并且有助于算法开发人员选定深度学习训练任务的训练规格。这里所说的深度学习训练任务的训练规格指的是计算机群为了执行这个深度学习训练任务而需要使用的资源的类型以及数量。常用的资源的类型包括CPU、GPU、存储器等等。
步骤S103,采用任务解析模块解析所提交的深度学习训练任务,并且根据由算法开发人员选定的训练规格,为经解析的深度学习训练任务分配计算机群的资源。
算法开发人员可以根据计算资源视图中显示的计算机群的可用资源的类型以及数量,选定深度学习训练任务的训练规格。任务解析模块还接收这个深度学习训练任务的训练脚本。在计算资源视图显示计算机群当前可用资源的类型以及数量的同时,还接收由算法开发人员输入的深度学习任务的训练规格,并且在步骤S103中,当通过输入设备接收到由算法开发人员选定的深度学习训练任务的训练规格以及提交的深度学习训练任务的时候,任务解析模块首先解析所提交的深度学习训练任务的内容,然后根据这个深度学习训练任务的训练规格以及经解析的深度学习训练任务,为这个深度学习训练任务分配计算机群的资源。
为此,任务解析模块需要在提交调试深度学习训练任务之前进行预设。
在一个可选的实施例中,预设任务解析模块是在步骤S101之前进行的。在任务解析模块中预设训练任务模板,训练任务模板可以用于为经解析的深度学习训练任务分配计算机群的资源。
其中,通过以下的步骤1)——步骤3)来预设任务解析模块。
步骤1)在任务解析模块中预设训练方式;其中,任务解析模式的训练方式包括:单机单卡、单机多卡、分布式以及CPU方式等等。其中,单机单卡的训练方式指的是采用服务器中的一个显卡来执行计算任务;单机多卡的训练方式指的是采用一台服务器中的多个显卡来执行计算任务;分布式的训练方式也叫作多机多卡,指的是采用在多台服务器中分布的多个显卡来执行计算任务;CPU方式指的是使用服务器的CPU(Central Processing Unit,中央处理器)来执行计算任务。
步骤2)在任务解析模块中预设框架;这里所说的框架包括tensorflow、pytorch、mxnet和caffe等等,可以根据算法开发人员的需求添加相应的自定义的框架。
步骤3)在任务解析模块中预设上述训练方式与框架的对应关系。
上述框架都有对应的单机单卡、单机多卡和多机多卡训练方式,但是配置的方式不一样,所以在步骤3)中预设上述训练方式与框架的对应关系,使得根据算法开发人员输入的深度学习任务的训练规格,可以灵活地采用各种框架以及该框架对应的各种训练方式来执行深度学习训练任务。而对于算法开发人员来说,在计算资源视图中提供的是一种通用的界面,以供算法开发人员设置深度学习训练任务的训练规格,算法开发人员只需要关注所需要的训练方式和资源就可以。通过这种方式,任务解析模块能够自动地适配各种训练方式的训练任务,因此减轻了算法开发人员配置训练任务的难度,对于分布式(多机多卡)训练方式效果尤甚。
基于上述的实施例,在一个可选的实施例中,步骤S103包括:
采用任务解析模块获取由算法开发人员选定的训练规格以及训练脚本;
采用任务解析模块解析深度学习训练任务的训练方式、框架以及深度学习训练任务的训练方式和框架的对应关系;
生成针对深度学习训练任务的训练任务模板,以用于为经解析的深度学习训练任务分配计算机群的资源。
其中,模板中的内容包括:运行代码和数据集所在的位置、GPU、CPU、内存的配置,对于多机多卡,每个框架的配置不同,因而模板会不同,例如,tensorflow需要有PS(Parameter Server)的参数或者Worker的参数等等。
在一个可选的实施例中,在步骤S103之后,该方法还包括:
在训练界面中呈现训练情况,并且接收算法开发人员对于深度学习训练任务的操作指令;
根据接收到的操作指令,对训练任务进行相应的操作;其中,操作包括:暂停训练任务、终止训练任务、修改训练任务的训练脚本以及重新启动训练任务。
在一个可选的实施例中,该方法还包括:
在训练界面中呈现在下列各项中的一项或更多项:深度学习训练任务的任务列表、任务提交区和交互式代码编辑区。
其中,深度学习训练任务的任务列表用于显示提交的深度学习训练任务,这里的深度学习训练任务可以是已经训练完成的、正在训练的或者是等待训练的。
任务提交区用于接收在提交任务时需要用户选择和填写的配置信息(例如,训练任务名称、CPU数量、GPU数量、训练方式等)。当训练界面包括任务提交区的时候,呈现训练界面的设备具有与算法开发人员交互的能力,能够在任务提交区中接收需要用户选择和填写的配置信息
交互式代码编辑区用于接收用户的输入,用户可以在其之中编写代码和调试(shell模式或者Jupyter-notebook)。当训练界面包括交互式代码编辑区的时候,呈现训练界面的设备具有与算法开发人员交互的能力,能够在交互式代码编辑区接收算法开发人员输入的代码,以便随时修改训练任务,并且在交互式代码编辑区中显示代码。
为了解决上述问题,一方面,本发明实施例提供了一种用于提交深度学习训练任务的装置,包括存储器10和处理器20,
存储器10用于存储计算机可读指令;
处理器20用于执行计算机可读指令,以执行如下操作:
在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量;
采用任务解析模块解析所提交的深度学习训练任务,并且根据由算法开发人员选定的训练规格,为经解析的深度学习训练任务分配计算机群的资源。
在一个可选的实施例中,在在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量的操作之前,处理器20还执行下列操作:
预设任务解析模块,以使任务解析模块采用其中的训练任务模板解析深度学习训练任务并且为其分配计算机群的资源;其中,通过以下方式预设任务解析模块;
在任务解析模块中设置候选训练方式;
在任务解析模块中设置候选框架;
设置候选训练方式与候选框架的对应关系。
在一个可选的实施例中,采用任务解析模块解析所提交的深度学习训练任务,并且根据由算法开发人员选定的训练规格,为经解析的深度学习训练任务分配计算机群的资源的操作包括:
采用任务解析模块获取由算法开发人员选定的训练规格以及训练脚本;
采用任务解析模块解析深度学习训练任务的训练方式、框架以及深度学习训练任务的训练方式和框架的对应关系;
生成针对深度学习训练任务的训练任务模板,以用于为经解析的深度学习训练任务分配计算机群的资源。
在一个可选的实施例中,在采用任务解析模块以选定的训练规格解析训练任务,并且将训练任务分配到相应的计算资源的操作之后,处理器20还执行下列操作:
在训练界面中呈现训练情况,并且接收算法开发人员对于深度学习训练任务的操作指令;
根据接收到的操作指令,对训练任务进行相应的操作;其中,操作包括:暂停训练任务、终止训练任务、修改训练任务的训练脚本以及重新启动训练任务。
在一个可选的实施例中,处理器20还执行下列操作:
使训练界面呈现在下列各项中的一项或更多项:深度学习训练任务的任务列表、任务提交区和交互式代码编辑区。
虽然本发明所揭露的实施方式如上,但上述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种用于提交深度学习训练任务的方法,其特征在于,包括:
在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量;
采用任务解析模块解析所提交的深度学习训练任务,并且根据由所述算法开发人员选定的训练规格,为经解析的深度学习训练任务分配所述计算机群的资源。
2.根据权利要求1所述的方法,其特征在于,在所述在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量的步骤之前,所述方法还包括:
预设所述任务解析模块,以使所述任务解析模块采用其中的训练任务模板解析所述深度学习训练任务并且为其分配所述计算机群的资源;其中,通过以下方式预设所述任务解析模块;
在所述任务解析模块中设置候选训练方式;
在所述任务解析模块中设置候选框架;
设置所述候选训练方式与所述候选框架的对应关系。
3.根据权利要求2所述的方法,其特征在于,所述采用任务解析模块解析所提交的深度学习训练任务,并且根据由所述算法开发人员选定的训练规格,为经解析的深度学习训练任务分配所述计算机群的资源的步骤包括:
采用所述任务解析模块获取由所述算法开发人员选定的训练规格以及训练脚本;
采用所述任务解析模块解析所述深度学习训练任务的训练方式、框架以及所述深度学习训练任务的训练方式和框架的对应关系;
生成针对所述深度学习训练任务的训练任务模板,以用于为经解析的深度学习训练任务分配所述计算机群的资源。
4.根据权利要求1所述的方法,在所述采用任务解析模块以选定的训练规格解析训练任务,并且将训练任务分配到相应的计算资源的步骤之后,所述方法还包括:
在训练界面中呈现训练情况,并且接收所述算法开发人员对于所述深度学习训练任务的操作指令;
根据接收到的操作指令,对所述训练任务进行相应的操作;其中,所述操作包括:暂停所述训练任务、终止所述训练任务、修改所述训练任务的训练脚本以及重新启动所述训练任务。
5.根据权利要求4所述的方法,其中,所述方法还包括:
在所述训练界面中呈现在下列各项中的一项或更多项:深度学习训练任务的任务列表、任务提交区和交互式代码编辑区。
6.一种用于提交深度学习训练任务的装置,包括存储器和处理器,
所述存储器,用于存储计算机可读指令;
所述处理器,用于执行所述计算机可读指令,以执行如下操作:
在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量;
采用任务解析模块解析所提交的深度学习训练任务,并且根据由所述算法开发人员选定的训练规格,为经解析的深度学习训练任务分配所述计算机群的资源。
7.根据权利要求6所述的装置,其特征在于,在所述在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量的操作之前,所述处理器还执行下列操作:
预设所述任务解析模块,以使所述任务解析模块采用其中的训练任务模板解析所述深度学习训练任务并且为其分配所述计算机群的资源;其中,通过以下方式预设所述任务解析模块;
在所述任务解析模块中设置候选训练方式;
在所述任务解析模块中设置候选框架;
设置所述候选训练方式与所述候选框架的对应关系。
8.根据权利要求7所述的装置,其特征在于,所述采用任务解析模块解析所提交的深度学习训练任务,并且根据由所述算法开发人员选定的训练规格,为经解析的深度学习训练任务分配所述计算机群的资源的操作包括:
采用所述任务解析模块获取由所述算法开发人员选定的训练规格以及训练脚本;
采用所述任务解析模块解析所述深度学习训练任务的训练方式、框架以及所述深度学习训练任务的训练方式和框架的对应关系;
生成针对所述深度学习训练任务的训练任务模板,以用于为经解析的深度学习训练任务分配所述计算机群的资源。
9.根据权利要求6所述的装置,在所述采用任务解析模块以选定的训练规格解析训练任务,并且将训练任务分配到相应的计算资源的操作之后,所述处理器还执行下列操作:
在训练界面中呈现训练情况,并且接收所述算法开发人员对于所述深度学习训练任务的操作指令;
根据接收到的操作指令,对所述训练任务进行相应的操作;其中,所述操作包括:暂停所述训练任务、终止所述训练任务、修改所述训练任务的训练脚本以及重新启动所述训练任务。
10.根据权利要求9所述的装置,其中,所述处理器还执行下列操作:
使所述训练界面呈现在下列各项中的一项或更多项:深度学习训练任务的任务列表、任务提交区和交互式代码编辑区。
CN201910578812.7A 2019-06-28 2019-06-28 一种用于提交深度学习训练任务的方法和装置 Active CN110389834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910578812.7A CN110389834B (zh) 2019-06-28 2019-06-28 一种用于提交深度学习训练任务的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910578812.7A CN110389834B (zh) 2019-06-28 2019-06-28 一种用于提交深度学习训练任务的方法和装置

Publications (2)

Publication Number Publication Date
CN110389834A true CN110389834A (zh) 2019-10-29
CN110389834B CN110389834B (zh) 2022-07-12

Family

ID=68286008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910578812.7A Active CN110389834B (zh) 2019-06-28 2019-06-28 一种用于提交深度学习训练任务的方法和装置

Country Status (1)

Country Link
CN (1) CN110389834B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191794A (zh) * 2019-12-29 2020-05-22 广东浪潮大数据研究有限公司 一种训练任务处理方法、装置、设备及可读存储介质
CN111209077A (zh) * 2019-12-26 2020-05-29 中科曙光国际信息产业有限公司 深度学习框架设计方法
CN111882056A (zh) * 2020-06-19 2020-11-03 苏州浪潮智能科技有限公司 一种基于副本模式的深度学习训练任务管控方法及装置
CN112965813A (zh) * 2021-02-10 2021-06-15 山东英信计算机技术有限公司 一种ai平台资源调控方法、系统及介质
CN113296921A (zh) * 2020-04-07 2021-08-24 阿里巴巴集团控股有限公司 云资源调度方法、节点、系统及存储介质
CN113467922A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 资源管理方法、装置、设备及存储介质
WO2022048557A1 (zh) * 2020-09-07 2022-03-10 华为云计算技术有限公司 Ai模型的训练方法、装置、计算设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529673A (zh) * 2016-11-17 2017-03-22 北京百度网讯科技有限公司 基于人工智能的深度学习网络训练方法及装置
CN107370796A (zh) * 2017-06-30 2017-11-21 香港红鸟科技股份有限公司 一种基于Hyper TF的智能学习系统
CN108460457A (zh) * 2018-03-30 2018-08-28 苏州纳智天地智能科技有限公司 一种面向卷积神经网络的多机多卡混合并行异步训练方法
CN108881446A (zh) * 2018-06-22 2018-11-23 深源恒际科技有限公司 一种基于深度学习的人工智能平台系统
CN109034386A (zh) * 2018-06-26 2018-12-18 中国科学院计算机网络信息中心 一种基于资源调度器的深度学习系统及其方法
CN109325541A (zh) * 2018-09-30 2019-02-12 北京字节跳动网络技术有限公司 用于训练模型的方法和装置
CN109508238A (zh) * 2019-01-05 2019-03-22 咪付(广西)网络技术有限公司 一种用于深度学习的资源管理系统及方法
US20190095819A1 (en) * 2017-09-27 2019-03-28 Oracle International Corporation Scalable and efficient distributed auto-tuning of machine learning and deep learning models
CN109558940A (zh) * 2018-11-09 2019-04-02 深圳市康拓普信息技术有限公司 一种深度学习模型训练的管理方法和系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529673A (zh) * 2016-11-17 2017-03-22 北京百度网讯科技有限公司 基于人工智能的深度学习网络训练方法及装置
CN107370796A (zh) * 2017-06-30 2017-11-21 香港红鸟科技股份有限公司 一种基于Hyper TF的智能学习系统
US20190095819A1 (en) * 2017-09-27 2019-03-28 Oracle International Corporation Scalable and efficient distributed auto-tuning of machine learning and deep learning models
CN108460457A (zh) * 2018-03-30 2018-08-28 苏州纳智天地智能科技有限公司 一种面向卷积神经网络的多机多卡混合并行异步训练方法
CN108881446A (zh) * 2018-06-22 2018-11-23 深源恒际科技有限公司 一种基于深度学习的人工智能平台系统
CN109034386A (zh) * 2018-06-26 2018-12-18 中国科学院计算机网络信息中心 一种基于资源调度器的深度学习系统及其方法
CN109325541A (zh) * 2018-09-30 2019-02-12 北京字节跳动网络技术有限公司 用于训练模型的方法和装置
CN109558940A (zh) * 2018-11-09 2019-04-02 深圳市康拓普信息技术有限公司 一种深度学习模型训练的管理方法和系统
CN109508238A (zh) * 2019-01-05 2019-03-22 咪付(广西)网络技术有限公司 一种用于深度学习的资源管理系统及方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MIKYOUNG LEE: "BAIPAS: Distributed Deep Learning Platform with Data Locality and Shuffling", 《INTERNATIONAL JOURNAL OF EDUCATION AND INFORMATION TECHNOLOGIES》 *
MIKYOUNG LEE: "BAIPAS: Distributed Deep Learning Platform with Data Locality and Shuffling", 《INTERNATIONAL JOURNAL OF EDUCATION AND INFORMATION TECHNOLOGIES》, vol. 11, 31 December 2017 (2017-12-31), pages 190 - 195 *
易经纬: "TensorFlow平台深度学习任务的资源调度问题研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
易经纬: "TensorFlow平台深度学习任务的资源调度问题研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 October 2018 (2018-10-15), pages 140 - 59 *
韩景倜: "《助理云经纪师》", 31 January 2015, 上海财经大学出版社, pages: 108 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209077A (zh) * 2019-12-26 2020-05-29 中科曙光国际信息产业有限公司 深度学习框架设计方法
CN111191794A (zh) * 2019-12-29 2020-05-22 广东浪潮大数据研究有限公司 一种训练任务处理方法、装置、设备及可读存储介质
CN111191794B (zh) * 2019-12-29 2023-03-14 广东浪潮大数据研究有限公司 一种训练任务处理方法、装置、设备及可读存储介质
CN113467922A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 资源管理方法、装置、设备及存储介质
CN113296921A (zh) * 2020-04-07 2021-08-24 阿里巴巴集团控股有限公司 云资源调度方法、节点、系统及存储介质
CN113296921B (zh) * 2020-04-07 2022-05-27 阿里巴巴集团控股有限公司 云资源调度方法、节点、系统及存储介质
CN111882056A (zh) * 2020-06-19 2020-11-03 苏州浪潮智能科技有限公司 一种基于副本模式的深度学习训练任务管控方法及装置
CN111882056B (zh) * 2020-06-19 2022-07-08 苏州浪潮智能科技有限公司 一种基于副本模式的深度学习训练任务管控方法及装置
WO2022048557A1 (zh) * 2020-09-07 2022-03-10 华为云计算技术有限公司 Ai模型的训练方法、装置、计算设备和存储介质
CN112965813A (zh) * 2021-02-10 2021-06-15 山东英信计算机技术有限公司 一种ai平台资源调控方法、系统及介质
CN112965813B (zh) * 2021-02-10 2023-01-10 山东英信计算机技术有限公司 一种ai平台资源调控方法、系统及介质

Also Published As

Publication number Publication date
CN110389834B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN110389834A (zh) 一种用于提交深度学习训练任务的方法和装置
CN110928529B (zh) 辅助算子开发的方法和系统
CN111078315A (zh) 微服务编排、执行方法及系统、架构、设备、存储介质
US8839197B2 (en) Automated analysis of composite applications
CN110196809B (zh) 接口测试方法及装置
CN110609681A (zh) 可视化配置生成web应用的系统、方法、设备及介质
CN109857388A (zh) 代码生成方法、装置、服务器及计算机可读介质
CN107506190A (zh) 基于Spring框架的XML文件修改方法及装置
CN106844040A (zh) 一种作业提交方法、系统及服务器
US20170249170A1 (en) Home system establishing method
CN114090162A (zh) 一种多租户系统的前端界面展示方法及相关装置
CN114205230A (zh) 云原生网元的配置方法、系统、介质及电子设备
CN112306594A (zh) 一种基于移动端的渲染方法、装置及存储介质
CN103984617A (zh) 一种服务器主动推送监控数据的方法
CN104657248A (zh) Java线程堆栈分析方法及系统
CN110209565A (zh) 一种元数据模型调试方法及其装置
US11055602B2 (en) Deep learning assignment processing method and apparatus, device and storage medium
CN108881373B (zh) 一种基于mvc框架的前端数据流处理方法
CN113204425B (zh) 供进程管理内部线程的方法、装置、电子设备及存储介质
CN109299005A (zh) 测试脚本的生成方法及装置
US11782747B2 (en) System and method for notebook processing to handle job execution in cross-cloud environment
CN115587272A (zh) 一种前端页面颜色调整方法、装置、系统及介质
US9298449B2 (en) Composite program history
US9716802B2 (en) Content model for a printer interface
CN109326330A (zh) 生物信息分析工具的制作方法、装置及可存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant