CN113127182A

CN113127182A - 深度学习调度配置系统及方法

Info

Publication number: CN113127182A
Application number: CN201911396935.5A
Authority: CN
Inventors: 陈磊; 喻弘; 王娟
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanghai Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanghai Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2021-07-16

Abstract

本发明实施例提供了一种深度学习调度配置系统及方法。该系统包括：WEB前端，将深度学习训练任务组装成DAG图，将DAG图根据算子之间的依赖关系，组装成配置文件；其中，DAG图的顶点为深度学习训练模型的节点的执行脚本，DAG图的边为执行脚本的执行顺序；调度平台包括：图引擎模块，用于解析配置文件，得到多个算子之间的依赖关系；算子执行引擎模块，用于根据多个算子中的每个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系，确定每个算子的类型，并向与每个算子的类型对应的执行器输出启动控制信号；多个执行器模块，用于响应启动控制信号，根据每个算子的输入和运行参数配置信息，得到每个算子的输出的值。

Description

深度学习调度配置系统及方法

技术领域

本发明涉及深度学习技术领域，尤其涉及一种深度学习调度配置系统及方法。

背景技术

传统深度学习和模型训练均通过命令行界面(command-line interface，CLI)模式来执行每个脚本，每个脚本内的任务都是串行执行，即后置任务执行必须依赖前置任务执行完成。

在图1中，算法工程师在CLI模式下，逐条键入命令，实现多层级联的卷积神经网络的输出。如果要执行卷积神经网络的训练任务，就要逐个脚本顺序执行，相邻脚本之间的时间间隔比较长。另外，在卷积神经网络执行训练过程中，除了顺序层与层之间的传递之外，在层内还存在卷积核心，尤其是在CLI模式下，卷积核心的计算需要串行执行，这样不仅仅等待时间长，GPU设备的计算服务资源也不能充分利用。

发明内容

本发明实施例提供了一种深度学习调度配置系统及方法，其目的是为了解决在CLI模式下，执行卷积神经网络的训练任务，比较耗时的问题。

第一方面，本发明实施例提供了一种深度学习调度配置系统，系统包括：深度学习调度平台和WEB前端；

万维网(World Wide Web，WEB)前端，将深度学习训练任务组装成DAG图(DirectedAcyclic Graph)，将DAG图根据算子之间的依赖关系，组装成配置文件；其中，DAG图的顶点为深度学习训练模型的节点的执行脚本，DAG图的边为执行脚本的执行顺序；

调度平台包括：

图引擎模块，用于获取深度学习训练任务的配置文件，并解析配置文件，得到多个算子的输入、输出、运行参数配置信息和算子之间的依赖关系；

算子执行引擎模块，用于根据多个算子中的每个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系，确定每个算子的类型，并向与每个算子的类型对应的执行器输出启动控制信号；

多个执行器模块，用于响应启动控制信号，根据每个算子的输入和运行参数配置信息，得到每个算子的输出的值，并返回完成标志至图引擎模块。

第二方面，本发明实施例提供了一种深度学习调度配置方法，方法包括：

将深度学习的训练流程组装成一个DAG图，并将DAG组装成配置文件；其中，DAG图的顶点为深度学习训练模型的节点的执行脚本，DAG图的边为执行脚本的执行顺序；

解析配置文件，得到多个算子的输入、输出、算子的运行参数配置信息和算子之间的依赖关系；

根据多个算子中的每个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系，确定每个算子的类型，并向与每个算子的类型对应的执行器输出启动控制信号；

响应启动控制信号，根据每个算子的输入和运行参数配置信息，得到每个算子的输出的值。

本发明实施例提供的深度学习调度配置系统及方法，能够提升执行模型的任务的效率，操作方便，减少人工干预过程。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为卷积神经网络结构图；

图2为本发明实施例提供的一种深度学习调度配置方法的流程图；

图3为本发明实施例提供的组装DAG图的流程图；

图4为本发明实施例提供的有向五环图示意图；

图5为本发明实施例提供的深度学习网络配置示意图；

图6为本发明实施例提供的算子执行流程图；

图7为本发明实施例提供的另一种调度平台方法的流程图；

图8为本发明实施例提供的一种调度平台系统的示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图2为本发明实施例的一种深度学习调度配置方法的流程图。如图2所示，该深度学习调度配置方法可以包括：

S201：将深度学习的训练流程组装成一个DAG图，并将所述DAG组装成配置文件；其中，DAG图的顶点为深度学习训练模型的节点的执行脚本，DAG图的边为执行脚本的执行顺序。

S202：获取深度学习训练任务的配置文件，并解析配置文件，得到多个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系。

S203：根据多个算子中的每个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系，确定每个算子的类型，并向与每个算子的类型对应的执行器输出启动控制信号。

S204：响应启动控制信号，根据每个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系，得到每个算子的输出的值。

本发明实施例能够提升算法工程师训练模型的效率，操作方便，减少人工干预过程。

在本发明实施例中，S201包括：

万维网(World Wide Web，WEB)前端将深度学习训练任务组装成一个DAG图，定义DAG图中的各节点为算子的输入、输出，以及DAG图中的各边为运行参数配置信息；最终通过应用程序组装成一个配置文件。其中，配置文件的格式可以为另一种标记语言(YAML Ain'tMarkup Language，YAML)格式，也可以是可扩展标记语言(eXtensible Markup Language，XML)格式。

如图3所示，组装DAG图的流程如下：

S301：通过JS页面定义DIV实现节点框的拖拽。

S302：采用属性定义实现深度学习训练任务与图节点的一一对应。

S303：采用连接线的方式，实现深度学习训练任务(即执行脚本)的执行顺序的定义。

本发明实施例基于DAG界面进行任务编排，可根据需求设置任务节点先后顺序(执行脚本的先后执行顺序)和依赖关系，做到一次编排，顺序执行，无需人工干预。

在本发明实施例中，DAG：有向无环图，任意一条边有方向，且不存在环路的图(如图4所示)。

在图4中，顶点为A、B、C、D、E；边为连接两个顶点的线段叫做边；相邻的：一个边的两头的顶点称为是相邻的顶点；度数：由一个顶点出发，有几条边就称该顶点有几度，或者该顶点的度数是几。例如B的度数为2；环：至少含有一条边，并且起点和终点都是同一个顶点的路径；

连通的：当从一个顶点出发可以通过至少一条边到达另一个顶点，我们就说这两个顶点是连通的；无环图：是一种不包含环的图；出度：由一个顶点出发的边的总数；入度：指向一个顶点的边的总数；有向路径：图中的一组顶点可以满足从其中任意一个顶点出发，都存在一条有向边指向这组顶点中的另一个；有向环：至少含有一条边的起点和终点都是同一个顶点的一条有向路径。

本发明实施例，在S201之后，该深度学习调度配置方法，还包括：

将算子的输入输出和运行配置信息保存到数据库；其中，算子的输入输出和运行配置信息为结构化数据。

本发明实施例，将深度学习各层次网络的执行脚本画成一个图，如图5所示。在有向图中寻找环路的方法来实现调度执行的目的。其具体做法如下：

定义网络的每个层次的每个节点的计算传递为顶点(单独配置成一个脚本)，向某个方向传递过程为边(也可以理解成调度顺序)。调度的过程可以理解为寻找有向环的过程，即确定一个DAG。下面以单路数据传递作为示例，阐述调度DAG的执行过程：

第1步：采用广度优先遍历获取多个算子中第一算子(节点)。

第2步：轮询第一算子(节点)，判断第一算子(节点)是否全部执行完成，执行完成开始执行第二算子(节点)。

第3步：发送请求到Operator engine开始执行第二算子(节点)任务。

第4步：重复步骤2、3；直至所有算子均被执行。

在图5中，在执行“9”之前，先需要采用广度优先遍历“4”和“7”是否都执行完，在“4”和“7”都确认执行完之后，发送请求到Operator engine开始执行“9”。

在本发明的另一个实施例中，配置文件，还包括：入度。

以图5中的“9”为例，“9”的入度为2；需要在确认入度为2之后，就开始执行“9”部分的训练；不用在开始执行“9”部分的训练之前，还需要检查“4”和“7”部分是否执行完成，故而减少执行时间。

需要说明的是，可以基于算子的入度来确定是否执行完该算子，进而可以减少对算子的轮询所花费的时间。

在本发明实施例中，S203包括：

主进程接收DAG engine的task请求，添加任务执行队列、任务监听队列；

任务执行进程轮询接收到的队列，根据不同任务类型调用不同executor；

任务监听进程轮询接收到的队列，调用不同executor查询任务执行状态，根据任务执行的最终状态(成功、失败)回调DAG engine。

本发明实施例中，针对不同的计算平台实现执行器的自定义扩充，将python code通过超文本传输协议(HTTP，HyperText Transfer Protocol)接口发送过去执行。(如图6所示)。

需要说明的是，多个算子之间的依赖关系是指：如图5中，“9”依赖于“4”和“7”运算完成之后才开始“9”的运算。

图7为本发明实施例提供的另一种深度学习调度配置方法的流程图。如图7所示，该深度学习调度配置方法可以包括：

S701：在UI界面生成配置文件。

S702：由界面的应用程序解析配置文件，得到算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系。

S703：图引擎用于针对算子中的第一算子的类型，执行第一算子。

S704：由算子执行引擎针对第一算子的类型，将第一算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系分发至对应的执行器。

S705：通过http接口将第一算子发送至分布式计算资源；并在计算之后，返回结果至执行器。

S706：经由算子执行引擎返回完成标志至图引擎。

S707：由图引擎广度遍历第一算子，判断第一算子是否完全执行完。

S708：在遍历第一算子之后，确认第一算子执行完，由图引擎执行算子中的第二算子，直至所有的算子执行完毕，由图引擎返回调度完成标志之界面应用程序。

S709：由界面应用程序返回计算结果至UI界面。

图8为本发明实施例提供的一种深度学习调度系统的示意图。如图8所示，该深度学习调度系统包括：

WEB前端801，用于将深度学习训练任务组装成DAG图，根据DAG图根据算子之间的依赖关系，组装成配置文件；其中，DAG图的顶点为深度学习训练模型的节点的执行脚本，DAG图的边为执行脚本的执行顺序；

调度平台802，包括：图引擎(DAG engine)8021、算子执行引擎(Operate engine)8022和执行器(Executor)8023；

DAG engine8021，用于解析配置文件，得到多个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系，并将多个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系保存到数据库；

Operate engine8022，用于根据多个算子中的每个算子的类型，将多个算子调度至不同的执行器中；

多个Executor8023，用于响应启动控制信号，根据每个算子的输入和运行参数配置信息，得到每个算子的输出的值，并返回完成标志至图引擎模块。

可选的，DAG engine 8021，还用于：接收WEB前端发送配置文件；以及解析配置文件，以及将配置文件转换为结构化数据存储到数据库中。

可选的，该深度学习调度配置系统，Operate engine8022还用于：

通过HTTP接口，将每个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系，对应调度外部执行设备803，并在外部执行设备执行完待处理训练任务之后，接收返回的每个算子的输出的值。

需要说明的是，针对运算量较少的时候，可以由执行器来计算；而对于运算量比较大的情况，则可以考虑借助外部的执行环境，加快运算速度。

在本发明实施例中，Executor8023包括但不限于：应用容器引擎(Docker)executor、Localexecutor(本地执行器)和DC executor(分布式计算平台执行器)。

在本发明实施例中，外部执行设备803包括但不限于Docker集群和分布式离散计算平台。其中，Docker executor与Docker集群对应，DC executor与分布式离线计算平台对应；其中，Docker集群包括多个Docker，分布式离线计算平台包括多个Spark节点。

需要说明的是，Docker集群与分布式离线计算平台也是用于在运算量比较大的情况下，加快运算速度。

此外，还可以针对不同的计算平台实现执行器的自定义扩充，将python code通过http接口发送过去即可执行计算。

需要说明的是，在本发明实施例中以分布式离线计算平台为示例，只要能实现与分布式离线计算平台相同或相似的效果的，都可以纳入本发明实施例的范畴。

可选的，DAG engine 8021，还用于：

采用广度优先遍历获取所有需要执行的算子(节点)信息。

轮询所有算子(节点)，判断上算子(节点)是否全部执行完成，执行完成开始执行当前算子(节点)。

发送请求到Operator engine 8022开始执行当前算子(节点)任务。

可选的，Operate engine 8022，还用于：

根据每个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系，获取待处理训练任务；

将待处理训练任务，添加至任务执行队列和任务监听队列；

的任务执行队列的任务执行进程轮询待处理训练任务，并向与待处理训练任务对应的执行器输出启动控制信号；

任务监听队列的任务监听进程轮询待处理训练任务，并向与待处理训练任务对应的执行器输出启动控制信号，以便查询待处理训练任务的执行状态。

另外，结合上述实施例中的深度学习调度配置方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种深度学习调度配置方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种深度学习调度配置系统，其特征在于，包括：调度平台和WEB前端；

所述WEB前端，用于将深度学习训练任务组装成DAG图，根据DAG图根据算子之间的依赖关系，组装成配置文件；其中，所述DAG图的顶点为深度学习训练模型的节点的执行脚本，所述DAG图的边为所述执行脚本的执行顺序；

所述调度平台包括：

图引擎模块，用于解析所述配置文件，得到多个算子中每个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系；

算子执行引擎模块，用于根据所述多个算子中的每个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系，确定所述算子的类型，并向与所述算子的类型对应的执行器输出启动控制信号；

多个执行器模块，用于响应所述启动控制信号，根据所述算子的输入和所述运行参数配置信息，得到所述每个算子的输出的值，并返回完成标志至所述图引擎模块。

2.根据权利要求1所述的系统，其特征在于，所述WEB前端，还用于：

通过HTTP将所述配置文件发送至所述调度平台。

3.根据权利要求2所述的系统，其特征在于，所述配置文件的文件格式为YAML格式或XML格式。

4.根据权利要求1所述的系统，其特征在于，所述图引擎模块，还用于：

采用广度优先遍历所述多个算子；

轮询所述多个算子，判断所述多个算子是否全部执行完成，执行完成开始执行当前算子。

5.根据权利要求1所述的系统，其特征在于，所述算子执行引擎模块，还用于：

根据所述每个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系，获取待处理训练任务；

将所述待处理训练任务，添加至任务执行队列和任务监听队列；

所述的任务执行队列的任务执行进程轮询所述待处理训练任务，并向与所述待处理训练任务对应的执行器输出启动控制信号；

所述任务监听队列的任务监听进程轮询所述待处理训练任务，并向与所述待处理训练任务对应的执行器输出启动控制信号，以便查询所述待处理训练任务的执行状态。

6.根据权利要求1所述的系统，其特征在于，所述多个执行器模块，还用于：

通过HTTP接口，将所述每个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系，发送外部执行设备，并接收所述外部执行设备返回的所述算子输出的值。

7.一种深度学习调度配置方法，其特征在于，所述方法包括：

将深度学习的训练流程组装成一个DAG图，并将所述DAG组装成配置文件；其中，所述DAG图的顶点为深度学习训练模型的节点的执行脚本，所述DAG图的边为所述执行脚本的执行顺序；

解析所述配置文件，得到多个算子的输入、输出、算子的运行参数配置信息和多个算子之间的依赖关系；

根据所述多个算子中的每个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系，确定所述每个算子的类型，并向与所述每个算子的类型对应的执行器输出启动控制信号；

响应所述启动控制信号，根据所述每个算子的输入和所述运行参数配置信息，得到所述每个算子的输出的值。

8.根据权利要求7所述的方法，其特征在于，在得到所述每个算子的输出的值之前，还包括：

采用广度优先遍历所述多个算子；

9.根据权利要求7所述的方法，其特征在于，所述根据所述多个算子中的每个算子的输入、输出、运行参数配置信息和多个算子之间的依赖关系，确定所述每个算子的类型，并向与所述每个算子的类型对应的执行器输出启动控制信号，包括：

10.根据权利要求7所述的方法，其特征在于，所述配置文件的文件格式为YAML格式或XML格式。