CN110389834A

CN110389834A - 一种用于提交深度学习训练任务的方法和装置

Info

Publication number: CN110389834A
Application number: CN201910578812.7A
Authority: CN
Inventors: 王超
Original assignee: Suzhou Wave Intelligent Technology Co Ltd
Current assignee: Suzhou Wave Intelligent Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-29
Anticipated expiration: 2039-06-28
Also published as: CN110389834B

Abstract

本发明公开了一种用于提交深度学习训练任务的方法。该方法包括：在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量；采用任务解析模块解析所提交的深度学习训练任务，并且根据由算法开发人员选定的训练规格，为经解析的深度学习训练任务分配计算机群的资源。通过采用任务解析模块解析深度学习训练任务和分配计算机群的资源，可以减少算法开发人员配置和监控训练任务所花费的时间精力，降低配置和监控训练任务的难度。还公开了对应的用于提交深度学习训练任务的装置。

Description

一种用于提交深度学习训练任务的方法和装置

技术领域

本发明涉及深度学习技术，尤指一种用于提交深度学习训练任务的方法和装置。

背景技术

深度学习训练任务，尤其是大规模和长时间训练任务提交的过程是十分繁琐，对于单机单卡步骤较为简单，然而单机多卡和多机多卡的分布式训练会让算法开发人员花费大量时间去配置和监控训练任务。

发明内容

为了解决上述技术问题，本发明提供了用于提交调试深度学习训练任务的方法和装置，能够减少算法开发人员配置训练任务的时间和难度。

为了达到本发明目的，本发明提供了一种用于提交深度学习训练任务的方法，该方法包括：

在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量；

采用任务解析模块解析所提交的深度学习训练任务，并且根据由算法开发人员选定的训练规格，为经解析的深度学习训练任务分配计算机群的资源。

在一个可选的实施例中，在在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量的步骤之前，该方法还包括：

预设任务解析模块，以使任务解析模块采用其中的训练任务模板解析深度学习训练任务并且为其分配计算机群的资源；其中，通过以下方式预设任务解析模块；

在任务解析模块中设置候选训练方式；

在任务解析模块中设置候选框架；

设置候选训练方式与候选框架的对应关系。

在一个可选的实施例中，采用任务解析模块解析所提交的深度学习训练任务，并且根据由算法开发人员选定的训练规格，为经解析的深度学习训练任务分配计算机群的资源的步骤包括：

采用任务解析模块获取由算法开发人员选定的训练规格以及训练脚本；

采用任务解析模块解析深度学习训练任务的训练方式、框架以及深度学习训练任务的训练方式和框架的对应关系；

生成针对深度学习训练任务的训练任务模板，以用于为经解析的深度学习训练任务分配计算机群的资源。

在一个可选的实施例中，在采用任务解析模块以选定的训练规格解析训练任务，并且将训练任务分配到相应的计算资源的步骤之后，该方法还包括：

在训练界面中呈现训练情况，并且接收算法开发人员对于深度学习训练任务的操作指令；

根据接收到的操作指令，对训练任务进行相应的操作；其中，操作包括：暂停训练任务、终止训练任务、修改训练任务的训练脚本以及重新启动训练任务。

在一个可选的实施例中，该方法还包括：

在训练界面中呈现在下列各项中的一项或更多项：深度学习训练任务的任务列表、任务提交区和交互式代码编辑区。

一方面，本发明实施例提供了一种用于提交深度学习训练任务的装置，包括存储器和处理器，

存储器用于存储计算机可读指令；

处理器用于执行计算机可读指令，以执行如下操作：

在一个可选的实施例中，在在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量的操作之前，处理器还执行下列操作：

在任务解析模块中设置候选训练方式；

在任务解析模块中设置候选框架；

设置候选训练方式与候选框架的对应关系。

在一个可选的实施例中，采用任务解析模块解析所提交的深度学习训练任务，并且根据由算法开发人员选定的训练规格，为经解析的深度学习训练任务分配计算机群的资源的操作包括：

在一个可选的实施例中，在采用任务解析模块以选定的训练规格解析训练任务，并且将训练任务分配到相应的计算资源的操作之后，处理器还执行下列操作：

在一个可选的实施例中，处理器还执行下列操作：

使训练界面呈现在下列各项中的一项或更多项：深度学习训练任务的任务列表、任务提交区和交互式代码编辑区。

本发明实施例的有益效果在于，通过采用任务解析模块解析深度学习训练任务和分配计算机群的资源，可以减少算法开发人员配置和监控训练任务所花费的时间精力，降低配置和监控训练任务的难度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例提供的用于提交调试深度学习训练任务的方法的流程图；

图2为本发明实施例提供的用于提交调试深度学习训练任务的装置的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为了解决上述技术问题，一方面，本发明实施例提供了一种用于提交调试深度学习训练任务的方法，如图1所示，该方法包括步骤S101-步骤S103。

步骤S101，在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量。

其中，计算资源视图用于显示计算机群的可用资源的类型以及数量，该计算机群用于执行深度学习任务，该计算机群的可用资源的类型以及数量可以是通过容器编排引擎Kubernetes监控得知的。Kubernetes支持自动化部署、大规模可伸缩、应用容器化管理。在生产环境中部署一个应用程序时，通常要部署该应用的多个实例以便对应用请求进行负载均衡；为此，Kubernetes能够管理和控制集群的可用资源。在此，Kubernetes可以用于监控计算机群当前已经占用的资源的类型以及数量，并且可以用于监控计算机群当前可用的资源的类型以及数量。通过在计算资源视图中显示计算机群当前可用资源的类型以及数量，可以有助于算法开发人员调试深度学习训练任务的代码，并且有助于算法开发人员选定深度学习训练任务的训练规格。这里所说的深度学习训练任务的训练规格指的是计算机群为了执行这个深度学习训练任务而需要使用的资源的类型以及数量。常用的资源的类型包括CPU、GPU、存储器等等。

步骤S103，采用任务解析模块解析所提交的深度学习训练任务，并且根据由算法开发人员选定的训练规格，为经解析的深度学习训练任务分配计算机群的资源。

算法开发人员可以根据计算资源视图中显示的计算机群的可用资源的类型以及数量，选定深度学习训练任务的训练规格。任务解析模块还接收这个深度学习训练任务的训练脚本。在计算资源视图显示计算机群当前可用资源的类型以及数量的同时，还接收由算法开发人员输入的深度学习任务的训练规格，并且在步骤S103中，当通过输入设备接收到由算法开发人员选定的深度学习训练任务的训练规格以及提交的深度学习训练任务的时候，任务解析模块首先解析所提交的深度学习训练任务的内容，然后根据这个深度学习训练任务的训练规格以及经解析的深度学习训练任务，为这个深度学习训练任务分配计算机群的资源。

为此，任务解析模块需要在提交调试深度学习训练任务之前进行预设。

在一个可选的实施例中，预设任务解析模块是在步骤S101之前进行的。在任务解析模块中预设训练任务模板，训练任务模板可以用于为经解析的深度学习训练任务分配计算机群的资源。

其中，通过以下的步骤1)——步骤3)来预设任务解析模块。

步骤1)在任务解析模块中预设训练方式；其中，任务解析模式的训练方式包括：单机单卡、单机多卡、分布式以及CPU方式等等。其中，单机单卡的训练方式指的是采用服务器中的一个显卡来执行计算任务；单机多卡的训练方式指的是采用一台服务器中的多个显卡来执行计算任务；分布式的训练方式也叫作多机多卡，指的是采用在多台服务器中分布的多个显卡来执行计算任务；CPU方式指的是使用服务器的CPU(Central Processing Unit，中央处理器)来执行计算任务。

步骤2)在任务解析模块中预设框架；这里所说的框架包括tensorflow、pytorch、mxnet和caffe等等，可以根据算法开发人员的需求添加相应的自定义的框架。

步骤3)在任务解析模块中预设上述训练方式与框架的对应关系。

上述框架都有对应的单机单卡、单机多卡和多机多卡训练方式，但是配置的方式不一样，所以在步骤3)中预设上述训练方式与框架的对应关系，使得根据算法开发人员输入的深度学习任务的训练规格，可以灵活地采用各种框架以及该框架对应的各种训练方式来执行深度学习训练任务。而对于算法开发人员来说，在计算资源视图中提供的是一种通用的界面，以供算法开发人员设置深度学习训练任务的训练规格，算法开发人员只需要关注所需要的训练方式和资源就可以。通过这种方式，任务解析模块能够自动地适配各种训练方式的训练任务，因此减轻了算法开发人员配置训练任务的难度，对于分布式(多机多卡)训练方式效果尤甚。

基于上述的实施例，在一个可选的实施例中，步骤S103包括：

其中，模板中的内容包括：运行代码和数据集所在的位置、GPU、CPU、内存的配置，对于多机多卡，每个框架的配置不同，因而模板会不同，例如，tensorflow需要有PS(Parameter Server)的参数或者Worker的参数等等。

在一个可选的实施例中，在步骤S103之后，该方法还包括：

在一个可选的实施例中，该方法还包括：

其中，深度学习训练任务的任务列表用于显示提交的深度学习训练任务，这里的深度学习训练任务可以是已经训练完成的、正在训练的或者是等待训练的。

任务提交区用于接收在提交任务时需要用户选择和填写的配置信息(例如，训练任务名称、CPU数量、GPU数量、训练方式等)。当训练界面包括任务提交区的时候，呈现训练界面的设备具有与算法开发人员交互的能力，能够在任务提交区中接收需要用户选择和填写的配置信息

交互式代码编辑区用于接收用户的输入，用户可以在其之中编写代码和调试(shell模式或者Jupyter-notebook)。当训练界面包括交互式代码编辑区的时候，呈现训练界面的设备具有与算法开发人员交互的能力，能够在交互式代码编辑区接收算法开发人员输入的代码，以便随时修改训练任务，并且在交互式代码编辑区中显示代码。

为了解决上述问题，一方面，本发明实施例提供了一种用于提交深度学习训练任务的装置，包括存储器10和处理器20，

存储器10用于存储计算机可读指令；

处理器20用于执行计算机可读指令，以执行如下操作：

在一个可选的实施例中，在在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量的操作之前，处理器20还执行下列操作：

在任务解析模块中设置候选训练方式；

在任务解析模块中设置候选框架；

设置候选训练方式与候选框架的对应关系。

在一个可选的实施例中，在采用任务解析模块以选定的训练规格解析训练任务，并且将训练任务分配到相应的计算资源的操作之后，处理器20还执行下列操作：

在一个可选的实施例中，处理器20还执行下列操作：

虽然本发明所揭露的实施方式如上，但上述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种用于提交深度学习训练任务的方法，其特征在于，包括：

采用任务解析模块解析所提交的深度学习训练任务，并且根据由所述算法开发人员选定的训练规格，为经解析的深度学习训练任务分配所述计算机群的资源。

2.根据权利要求1所述的方法，其特征在于，在所述在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量的步骤之前，所述方法还包括：

预设所述任务解析模块，以使所述任务解析模块采用其中的训练任务模板解析所述深度学习训练任务并且为其分配所述计算机群的资源；其中，通过以下方式预设所述任务解析模块；

在所述任务解析模块中设置候选训练方式；

在所述任务解析模块中设置候选框架；

设置所述候选训练方式与所述候选框架的对应关系。

3.根据权利要求2所述的方法，其特征在于，所述采用任务解析模块解析所提交的深度学习训练任务，并且根据由所述算法开发人员选定的训练规格，为经解析的深度学习训练任务分配所述计算机群的资源的步骤包括：

采用所述任务解析模块获取由所述算法开发人员选定的训练规格以及训练脚本；

采用所述任务解析模块解析所述深度学习训练任务的训练方式、框架以及所述深度学习训练任务的训练方式和框架的对应关系；

生成针对所述深度学习训练任务的训练任务模板，以用于为经解析的深度学习训练任务分配所述计算机群的资源。

4.根据权利要求1所述的方法，在所述采用任务解析模块以选定的训练规格解析训练任务，并且将训练任务分配到相应的计算资源的步骤之后，所述方法还包括：

在训练界面中呈现训练情况，并且接收所述算法开发人员对于所述深度学习训练任务的操作指令；

根据接收到的操作指令，对所述训练任务进行相应的操作；其中，所述操作包括：暂停所述训练任务、终止所述训练任务、修改所述训练任务的训练脚本以及重新启动所述训练任务。

5.根据权利要求4所述的方法，其中，所述方法还包括：

在所述训练界面中呈现在下列各项中的一项或更多项：深度学习训练任务的任务列表、任务提交区和交互式代码编辑区。

6.一种用于提交深度学习训练任务的装置，包括存储器和处理器，

所述存储器，用于存储计算机可读指令；

所述处理器，用于执行所述计算机可读指令，以执行如下操作：

7.根据权利要求6所述的装置，其特征在于，在所述在训练界面的计算资源视图中显示计算机群当前可用资源的类型以及数量的操作之前，所述处理器还执行下列操作：

在所述任务解析模块中设置候选训练方式；

在所述任务解析模块中设置候选框架；

设置所述候选训练方式与所述候选框架的对应关系。

8.根据权利要求7所述的装置，其特征在于，所述采用任务解析模块解析所提交的深度学习训练任务，并且根据由所述算法开发人员选定的训练规格，为经解析的深度学习训练任务分配所述计算机群的资源的操作包括：

9.根据权利要求6所述的装置，在所述采用任务解析模块以选定的训练规格解析训练任务，并且将训练任务分配到相应的计算资源的操作之后，所述处理器还执行下列操作：

10.根据权利要求9所述的装置，其中，所述处理器还执行下列操作：

使所述训练界面呈现在下列各项中的一项或更多项：深度学习训练任务的任务列表、任务提交区和交互式代码编辑区。