CN107480717A

CN107480717A - 训练作业处理方法及系统、计算设备、计算机存储介质

Info

Publication number: CN107480717A
Application number: CN201710703279.3A
Authority: CN
Inventors: 李远策; 欧阳文; 贾润莹; 贾宇晗; 王磊
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-08-16
Filing date: 2017-08-16
Publication date: 2017-12-15

Abstract

本发明公开了一种训练作业处理方法及系统、计算设备、计算机存储介质。其中，方法包括：获取待处理的基于深度学习技术的训练作业，将所述训练作业进行封装处理，封装得到的训练作业携带封装参数；将封装得到的训练作业提交给调度平台，以供所述调度平台根据所述封装参数为训练作业分配作业运行资源；利用分配的作业运行资源，启动相应的作业执行程序执行所述训练作业，获取执行结果；将执行结果保存至存储系统中。采用本方案，可以针对不同的深度学习训练作业，实现硬件等资源的统一分配管理及数据的统一存取，最终实现深度学习训练作业的平台化处理，提高了处理深度学习训练作业效率，并降低了人工成本。

Description

训练作业处理方法及系统、计算设备、计算机存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种训练作业处理方法及系统、计算设备、计算机存储介质。

背景技术

随着科学技术的不断发展，深度学习技术已成为计算机视觉和自然语言处理等领域中的一项重要研究手段。深度学习技术往往需对海量的训练数据进行分析训练，从而获得解决实际问题的模型及方法。

然而，目前在处理深度学习作业过程中，需开发技术人员根据实际作业需求，为深度学习作业手动划分硬件等运行资源，并需将深度学习作业拷贝至相应的硬件资源上运行，从而无法实现对硬件等运行资源的统一化管理。并且，深度学习作业处理过程中需调用较多的离线数据库中的数据，而离线数据库无法实现平台化处理，从而无法实现数据的统一存取。总之，目前的深度学习作业无法对硬件资源，尤其涉及GPU(Graphics ProcessingUnit，图形处理器)等硬件设备的统一管理；也无法实现训练数据，训练结果等数据的统一存取，无法实现平台化处理，处理效率底下，人工成本较高。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的训练作业处理方法及系统、计算设备、计算机存储介质。

根据本发明的一个方面，提供了一种训练作业处理方法，包括：

获取待处理的基于深度学习技术的训练作业，将所述训练作业进行封装处理，封装得到的训练作业携带封装参数；

将封装得到的训练作业提交给调度平台，以供所述调度平台根据所述封装参数为训练作业分配作业运行资源；

利用分配的作业运行资源，启动相应的作业执行程序执行所述训练作业，获取执行结果；

将执行结果保存至存储系统中。

根据本发明的另一方面，提供了一种训练作业处理系统，包括：

客户端，适于获取待处理的基于深度学习技术的训练作业，将所述训练作业进行封装处理，封装得到的训练作业携带封装参数；并将封装得到的训练作业提交给调度平台；

调度平台，适于根据所述封装参数为训练作业分配作业运行资源，利用分配的作业运行资源，启动相应的作业执行程序执行所述训练作业，获取执行结果；

存储系统，适于存储所述执行结果。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述训练作业处理方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述训练作业处理方法对应的操作。

根据本发明的训练作业处理方法及装置、计算设备、计算机存储介质，通过获取待处理的基于深度学习技术的训练作业，将所述训练作业进行封装处理，封装得到的训练作业携带封装参数；将封装得到的训练作业提交给调度平台，以供所述调度平台根据所述封装参数为训练作业分配作业运行资源；利用分配的作业运行资源，启动相应的作业执行程序执行所述训练作业，获取执行结果；将执行结果保存至存储系统中。采用本方案，可以实现不同类型的深度学习训练作业的统一调度，实现硬件等资源的统一分配管理及数据的统一存取，最终实现深度学习训练作业的平台化处理，提高了处理深度学习训练作业效率，并降低了人工成本。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例提供的训练作业处理方法的流程示意图；

图2示出了根据本发明另一个实施例提供的训练作业处理方法的流程示意图；

图3示出了根据本发明一个实施例提供的训练作业处理系统的功能框图；

图4示出了根据本发明另一个实施例提供的训练作业处理系统的功能框图；

图5示出了根据本发明一个实施例提供的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例提供的训练作业处理方法的流程图。如图1所示，该方法包括：

步骤S110，获取待处理的基于深度学习技术的训练作业，将训练作业进行封装处理，封装得到的训练作业携带封装参数。

其中，待处理的基于深度学习技术的训练作业可以为基于各种类型和/或各种版本的深度学习技术框架的训练作业，例如，其可以为基于TensorFlow、或MXNet等分布式深度学习框架的训练作业，也可以为基于Caffe、Theano、或PyTorch等单机模式深度学习框架的训练作业。

在获取了待处理的基于深度学习技术的训练作业后，将训练作业进行封装处理，封装得到的训练作业携带封装参数。其中，封装参数包含有与训练作业相关的参数，例如，作业类型、作业执行命令、工作进程数量和/或作业执行程序路径等。具体地，可通过脚本对训练作业进行封装，脚本中包含与训练作业相应的封装参数。

步骤S120，将封装得到的训练作业提交给调度平台，以供调度平台根据封装参数为训练作业分配作业运行资源。

具体地，将携带有封装参数的训练作业提交至调度平台，调度平台可根据步骤S110中的封装参数为训练作业分配作业运行资源。其中，运行资源包括：内存资源、CPU资源、和/或GPU资源等。

步骤S130，利用分配的作业运行资源，启动相应的作业执行程序执行训练作业，获取执行结果。

具体地，利用步骤S120中分配的作业运行资源，以及封装参数中与作业执行程序相关的参数，如作业执行程序路径等，启动相应的作业执行程序执行训练作业，获取执行结果。例如，若步骤S120中为训练作业test.1分配的作业运行资源包括2个工作进程，每个工作进程包括1个GPU，则在该2个工作进程中运行封装参数中作业执行程序路径所指定的作业执行程序执行训练作业，并获取该2个工作进程执行训练作业的执行结果。

步骤S140，将执行结果保存至存储系统中。

将步骤S130中获取的执行结果保存至存储系统中。可选的，本领域技术人员可根据实际业务需求选择合适的存储系统。例如，基于hadoop的分布式文件系统HDFS(HadoopDistributed File System，Hadoop文件分发系统)，具有高容错性、高吞吐性等特点，所以可选取其作为本实施例中的存储系统。

可选的，在步骤S130启动相应的作业执行程序执行训练作业之前，存储系统中可存储有与训练作业相关训练样本数据等，以供在步骤S130作业执行程序执行训练作业前或执行训练作业时可读取训练样本数据。

根据本发明的训练作业处理方法，通过获取待处理的基于深度学习技术的训练作业，可将各种类型和/或各种版本的深度学习技术框架的训练作业进行封装处理，从而实现多类型和/或多版本深度学习技术框架的集成，并具有较高的拓展性；并且，通过训练作业封装过程中的封装参数为调度平台提供为训练作业分配作业运行资源的依据，从而实现对训练作业运行资源的统一分配管理；同时，通过对基于深度学习技术的训练作业的封装处理，将封装后的训练作业直接提交至调度平台，避免了对作业执行程序原生代码的修改，降低了迁移成本；并利用分配的作业运行资源，启动相应的作业执行程序执行训练作业，获取执行结果，将执行结果保存至存储系统中，实现数据的统一存取。采用本方法，可以实现不同类型的深度学习训练作业的统一调度，实现硬件等资源的统一分配管理及数据的统一存取，最终实现深度学习训练作业的平台化处理，提高了处理深度学习训练作业效率，并降低了人工成本。

图2示出了根据本发明另一个实施例提供的训练作业处理方法的流程图。如图2所示，该方法包括：

步骤S210，获取待处理的基于深度学习技术的训练作业，将训练作业进行封装处理，封装得到的训练作业携带封装参数。

其中，待处理的基于深度学习技术的训练作业可以为基于各种类型和/或各种版本的深度学习技术框架的训练作业，例如，其可以为基于TensorFlow、MXNet等分布式深度学习框架的训练作业，也可以为Caffe、Theano或PyTorch等单机模式深度学习框架的训练作业。

在获取了待处理的基于深度学习技术的训练作业后，将训练作业进行封装处理，封装得到的训练作业携带封装参数。具体地，可通过脚本对训练作业进行封装，脚本中包含与训练作业相应的封装参数。其中，封装参数包含以下参数的一项或多项：作业类型、作业执行命令、工作进程数量、每个工作进程所需GPU数量、输入路径、输出路径、以及作业执行程序路径。

例如：“app-type‘tensorflow’”代表作业类型为“tensorflow”；

“hbox-cmd‘phthon tfTextdemo.py’”代表执行“phthon tfTextdemo.py”作业的命令；

“worker-num 4”代表该作业工作进程数为4；

“worker-GPU 1”代表每个工作进程所需GPU数量为1；

“input hdfs//name.safe”代表输入路径为“hdfs//name.safe”；

“output home/outputTest#modle”代表输出路径为“home/outputTest#modle”；

“files hdfs://namenode.safe.lycc.qihoo.net:9000/tmp/tensorflow/demo/src/Single”代表作业执行程序路径为hdfs://namenode.safe.lycc.qihoo.net:9000/tmp/tensorflow/demo/src/Single”。

可选的，封装参数还包括每个工作进程所需内存容量、CPU核心数、作业优先级、版本文件路径等与作业运行相关的参数。

步骤S220，将封装得到的训练作业提交给调度平台，以供调度平台根据封装参数为训练作业分配作业运行资源。

具体地，将封装得到的训练作业提交给调度平台后，调度平台根据工作进程数量分配工作进程，并根据每个工作进程所需GPU数量分配每个工作进程的GPU。例如，根据封装参数中工作进程参数“worker-num 4”，以及每个工作进程所需GPU数量参数“worker-GPU1”，为该训练作业分配4个工作进程，每个工作进程分配1个GPU。可选的，也可根据封装参数为每个工作进程分配内存、CPU核心数等运行资源。例如，根据封装参数“worker-num4”、“worker-GPU 1”、“worker-CPU 1”、以及“worker-memory 2048”为该训练作业分配4个工作进程，每个工作进程分配1个GPU、1个CPU核心、以及2048的内存。

可选的，由于不同GPU之间通信能力不同，为进一步提高训练作业的执行能力，在根据每个工作进程所需GPU数量分配每个工作进程的GPU过程中，可根据每个工作进程所需GPU数量及通信拓扑结构，采用后续深度优先递归遍历算法分配每个工作进程的GPU。具体地，可从通信拓扑结构叶节点为起点进行遍历，将具有较优通信性能的GPU组分配给同一个工作进程。举例来说，每个工作进程所需GPU数量为2，通信拓扑结构为[1'(1，2),2'(3，4)，3'(5，6)4'(7，8)]，其中节点1'为叶节点1及叶节点2的根节点，由于同一根节点的叶节点之间的通信效率优于不同根节点的叶节点间的通信效率，(例如，节点1与节点2之间的通信效率优于节点1与节点3-8中任一节点的通信效率)，则可将同一根节点的两个GPU分配给同一工作进程。

进一步地，调度平台可将训练作业进行分片处理，将分片处理得到的各个分片训练作业分配给各个工作进程。具体地，根据封装参数中作业执行程序路径，获取作业执行程序，并对作业执行程序进行分片处理，将分片处理得到的各个分片训练作业分配给各个工作进程，以供各个工作进程可并行执行该训练作业。其中，可根据工作进程数，为每个工作进程平均分配分片训练作业，如工作进程数为4，则可将训练作业平均划分为4个分片训练作业，为每个工作进程分配1个作业分片；或者通过作业分片技术(如通过Map操作对作业进行分片)将训练作业分为n个分片训练作业，根据工作进程数，通过哈希算法，将分片处理得到的各个分片训练作业分配给各个工作进程。具体的训练作业分片算法，以及将分片训练作业分配给各个工作进程的规则本领域技术人员可自行设置，本发明不作限定。

步骤S230，依据输入路径从存储系统中读取记录有训练样本数据的输入文件。

其中，存储系统中记录有与待训练作业相关的训练样本数据，根据封装参数中的输入路径可从存储系统中读取记录有训练样本数据的输入文件。

具体地，依据输入路径从存储系统中读取记录有训练样本数据的输入文件的方式包括但不限于以下三种方式，本领域技术人员可根据实际业务需求自行设置。

方式一：以文件为单位将输入文件分配给各个工作进程；根据输入文件分配结果，从存储系统中下载各个工作进程所需要的输入文件至相应工作进程本地。其中，可将输入文件平均分配给各个工作进程。可选的，分配给各个工作进程的输入文件与其相对应的工作进程对应的分片训练作业相关。例如，工作进程1对应的分配训练作业为test.1、test.2，工作进程2对应的分配训练作业为test.3、test.4。而test.1、test.2、test.3、test.4对应的输入文件分别为data.1、data.2、data.3、data.4，则将data.1、data.2分配给工作进程1，将data.3、data.4分配给工作进程2。则工作进程1及工作进程2在执行相应的分片训练作业(对应后续步骤S240)之前，从存储系统中下载data.1、data.2至工作进程1对应的本地中，将data.3、data.4下载至工作进程2对应的本地中。本方式可适用于输入文件为小文件，和/或输入文件为在工作进程执行相应的分片训练作业过程中需重复读取的情形。

方式二：以文件为单位将输入文件分配给各个工作进程；将分配给各个工作进程的输入文件的文件名列表发送至相应的工作进程；各个工作进程启动后根据文件名列表从存储系统中读取输入文件。其中，可将输入文件平均分配给各个工作进程。可选的，分配给各个工作进程的输入文件与其相对应的工作进程对应的分片训练作业相关。举例来说，工作进程1对应的分配训练作业为test.1、test.2，工作进程2对应的分配训练作业为test.3、test.4。而test.1、test.2、test.3、test.4对应的输入文件分别为data.1、data.2、data.3、data.4，则将data.1、data.2的文件名列表分配给工作进程1，将data.3、data.4文件名列表分配给工作进程2。则工作进程1及工作进程2在执行启动后，工作进程1从存储系统中读取文件名为data.1、data.2的文件，工作进程2从存储系统中读取文件名为data.3、data.4的文件。可选的，工作进程启动后根据文件名列表从存储系统中读取输入文件时，可通过预设的封装接口调用存储系统中的文件。例如，若工作进程中的执行程序不支持从存储系统中直接调用文件，则可通过预设封装的接口调用存储系统中的文件。

方式三：对输入文件进行分片处理，将分片处理得到的数据分片分配给各个工作进程；在各个工作进程启动后，通过数据通道将数据分片传输至相应的工作进程。例如，可通过InputFormat类的getSplits方法，将输入文件进行分片处理(划分为若干个逻辑块)，将分片处理得到的数据分片分配给各个工作进程，并将各个数据分片与各个工作进程的对应关系发送至各个工作进程，各个工作进程在启动后，即执行相应的分片训练作业(对应后续步骤S240)后，根据RecordReader信息(包含工作进程读取数据分片的方式，如按行读取等)通过数据通道读取相应的数据分片。可选的，当工作进程在执行相应的分片训练作业需对获取的数据分片进行多次读取时，可设置相应的读取次数参数，根据读取次数参数对获取的数据分片进行多次读取。

步骤S240，利用分配的作业运行资源，启动相应的作业执行程序执行训练作业。

具体地，利用分配的作业运行资源，启动相应的作业执行程序针对步骤S230获取的训练样本数据进行训练处理，获取训练得到的训练模型。进一步地，根据步骤S220中调度平台为各个工作进程分配分片训练作业的结果，启动各个工作进程执行相应的分片训练作业。各个工作进程针对与其对应的训练样本数据进行训练处理，获得训练得到的训练模型。

可选的，当步骤S210中的封装参数中包含版本文件路径参数时，在本步骤启动相应的作业执行程序执行训练作业之前，可根据版本文件路径下载版本文件压缩包，并对版本文件压缩包进行解压，从而在本步骤中作业执行程序可利用解压后的版本文件执行训练作业。例如，可通过cacheArchive参数中的版本文件路径下载版本文件压缩包，并在各个工作进程所在的计算节点中自动解压，从而使得各个工作进程利用解压后的版本文件执行训练作业。

可选的，在作业执行程序执行训练作业过程中，可检测各个工作进程的运行状态，通过WEB界面呈现各个工作进程的运行状态。具体地，调度系统可周期性地或实时地获取与其对应的各个工作进程的运行状态，并将各个工作进程的运行状态以WEB界面呈现。

可选的，可通过预设的传输接口提供作业执行程序执行训练作业过程中或执行完毕后的日志。

步骤S250，将执行结果保存至存储系统中。

具体地，将训练得到的训练模型保存至存储系统的输出路径下。可选的，将各个工作进程执行分片训练作业所获得的训练模型保存至存储系统的输出路径下。

根据本发明的训练作业处理方法，通过获取待处理的基于深度学习技术的训练作业，可将各种类型和/或各种版本的深度学习技术框架的训练作业进行封装处理，从而实现多类型和/或版本深度学习技术框架的集成，并具有较高的拓展性；同时，通过对基于深度学习技术的训练作业的封装处理，将封装后的训练作业直接提交至调度平台，避免了对作业执行程序原生代码的修改，降低了迁移成本；并且，通过训练作业封装过程中的封装参数为调度平台提供为训练作业分配工作进程，及工作进程所需GPU，从而实现对训练作业运行资源的统一分配管理；并进一步根据每个工作进程所需GPU数量及通信拓扑结构，采用后续深度优先递归遍历算法分配每个工作进程的GPU，从而使得在对训练作业运行资源的统一分配管理过程中感知GPU等硬件设备的通信亲和性，提高训练作业的执行能力；并利用分配的作业运行资源，启动相应的作业执行程序执行训练作业，获取执行结果，将执行结果保存至存储系统中，实现数据的统一存取；同时，在工作进程中未安装作业执行程序所需版本或工作进程中未安装用户自定义版本时，可根据版本文件路径下载版本文件压缩包，并对版本文件压缩包进行解压，使得作业执行程序利用解压后的版本文件执行训练作业，使本方法支持各种版本的深度学习技术框架的训练任务；并且，可通过WEB界面呈现各个工作进程的运行状态，使得用户可获知各个工作进程的运行状态。采用本方法，可以实现不同类型的深度学习训练作业的统一调度，实现硬件等资源的统一分配管理及数据的统一存取，最终实现深度学习训练作业的平台化处理，提高了处理深度学习训练作业效率，并降低了人工成本。

图3示出了根据本发明一个实施例提供的训练作业处理系统的功能框图。如图3所示，该系统包括：客户端31、调度平台32、以及存储系统33。

客户端31，适于获取待处理的基于深度学习技术的训练作业，将训练作业进行封装处理，封装得到的训练作业携带封装参数，并将封装得到的训练作业提交给调度平台32。

调度平台32，适于根据封装参数为训练作业分配作业运行资源，利用分配的作业运行资源，启动相应的作业执行程序执行所述训练作业，获取执行结果。

具体地，调度平台可根据客户端31中的封装参数为训练作业分配作业运行资源。其中，运行资源包括：内存资源、CPU资源、和/或GPU资源等。

进一步地，利用分配的作业运行资源，启动相应的作业执行程序执行训练作业，获取执行结果。具体地，利用分配的作业运行资源，以及封装参数中与作业执行程序相关的参数，如作业执行程序路径等，启动相应的作业执行程序执行训练作业，获取执行结果。例如，若为训练作业test.1分配的作业运行资源包括2个工作进程，每个工作进程包括1个GPU，则在该2个工作进程中运行封装参数中作业执行程序路径所指定的作业执行程序执行训练作业，并获取该2个工作进程执行训练作业的执行结果。

存储系统33，适于存储执行结果。

可选的，本领域技术人员可根据实际业务需求选择合适的存储系统。例如，基于hadoop的分布式文件系统HDFS(Hadoop Distributed File System，Hadoop文件分发系统)，具有高容错性、高吞吐性等特点，所以可选取其作为本实施例中的存储系统。

根据本发明的训练作业处理系统，通过客户端获取待处理的基于深度学习技术的训练作业，可将各种类型和/或各种版本的深度学习技术框架的训练作业进行封装处理，从而实现多类型和/或多版本深度学习技术框架的集成，并具有较高的拓展性；并且，通过训练作业封装过程中的封装参数为调度平台提供为训练作业分配作业运行资源的依据，从而实现对训练作业运行资源的统一分配管理；同时，通过对基于深度学习技术的训练作业的封装处理，将封装后的训练作业直接提交至调度平台，避免了对作业执行程序原生代码的修改，降低了迁移成本；并利用分配的作业运行资源，启动相应的作业执行程序执行训练作业，获取执行结果，将执行结果保存至存储系统中，实现数据的统一存取。采用本系统，可以实现不同类型的深度学习训练作业的统一调度，实现硬件等资源的统一分配管理及数据的统一存取，最终实现深度学习训练作业的平台化处理，提高了处理深度学习训练作业效率，并降低了人工成本。并且，本系统结构简单，易于操作与维护，具有良好的拓展性。

图4示出了根据本发明另一个实施例提供的训练作业处理系统的功能框图。如图4所示，在图3所示系统的基础上，本系统还包括：呈现模块41。

其中，客户端31在获取了待处理的基于深度学习技术的训练作业后，将训练作业进行封装处理，封装得到的训练作业携带封装参数。具体地，可通过脚本对训练作业进行封装，脚本中包含与训练作业相应的封装参数。其中，封装参数包含以下参数的一项或多项：作业类型、作业执行命令、工作进程数量、每个工作进程所需GPU数量、输入路径、输出路径、以及作业执行程序路径。

例如：“app-type‘tensorflow’”代表作业类型为“tensorflow”；

“worker-num 4”代表该作业工作进程数为4；

“worker-GPU 1”代表每个工作进程所需GPU数量为1；

“input hdfs//name.safe”代表输入路径为“hdfs//name.safe”；

调度平台32进一步包括：全局资源管理节点321、计算主节点322、以及至少一个计算节点323。

其中，全局资源管理节点321，适于根据工作进程数量分配工作进程，并根据每个工作进程所需GPU数量分配每个工作进程的GPU。

具体地，接收到客户端提交的训练作业后，全局资源管理节点321启动计算主节点322，计算主节点322可向全局资源管理节点321申请训练作业所需的运行资源，全局资源管理节点321根据工作进程数量分配工作进程，并根据每个工作进程所需GPU数量分配每个工作进程的GPU。例如，根据封装参数中工作进程参数“worker-num 4”，以及每个工作进程所需GPU数量参数“worker-GPU 1”，为该训练作业分配4个工作进程，每个工作进程分配1个GPU。可选的，也可根据封装参数为每个工作进程分配内存、CPU核心数等运行资源。例如，根据封装参数“worker-num 4”、“worker-GPU 1”、“worker-CPU 1”、以及“worker-memory2048”为该训练作业分配4个工作进程，每个工作进程分配1个GPU、1个CPU核心、以及2048的内存。

可选的，由于不同GPU之间通信能力不同，为进一步提高训练作业的执行能力，全局资源管理节点321进一步适于：根据每个工作进程所需GPU数量及通信拓扑结构，采用后续深度优先递归遍历算法分配每个工作进程的GPU。具体地，可从通信拓扑结构叶节点为起点进行遍历，将通信能力较优的GPU组分配给同一个工作进程。举例来说，每个工作进程所需GPU数量为2，通信拓扑结构为[1'(1，2),2'(3，4)，3'(5，6)4'(7，8)]，其中节点1'为叶节点1及叶节点2的根节点，由于同一根节点的叶节点之间的通信效率优于不同根节点的叶节点间的通信效率，(例如，节点1与节点2之间的通信效率优于节点1与节点3-8中任一节点的通信效率)，则可将同一根节点的两个GPU分配给同一工作进程。

计算主节点322，适于将训练作业进行分片处理，将分片处理得到的各个分片训练作业分配给各个工作进程。

具体地，根据封装参数中作业执行程序路径，获取作业执行程序，并对作业执行程序进行分片处理，并将分片处理得到的各个分片训练作业分配给各个工作进程，以供各个工作进程可并行执行该训练作业。其中，可根据工作进程数，为每个工作进程平均分配分片训练作业，如工作进程数为4，则可将训练作为平均划分为4个分片训练作业，为每个工作进程分配1个作业分片；或者通过作业分片技术(如通过Map操作对作业进行分片)将训练作业分为n个分片训练作业，根据工作进程数，通过哈希算法，将分片处理得到的各个分片训练作业分配给各个工作进程。具体的训练作业分片算法，以及将分片训练作业分配给各个工作进程的规则本领域技术人员可自行设置，本发明不作限定。

计算主节点322，进一步适于依据输入路径从存储系统中读取记录有训练样本数据的输入文件。

根据封装参数中的输入路径可从存储系统中读取记录有训练样本数据的输入文件。

具体地，计算主节点322依据输入路径从存储系统中读取记录有训练样本数据的输入文件的方式包括但不限于以下三种方式，本领域技术人员可根据实际业务需求自行设置。

方式二：以文件为单位将输入文件分配给各个工作进程；将分配给各个工作进程的输入文件的文件名列表发送至相应的工作进程，以供各个工作进程启动后根据文件名列表从存储系统中读取输入文件。其中，可将输入文件平均分配给各个工作进程。可选的，分配给各个工作进程的输入文件与其相对应的工作进程对应的分片训练作业相关。举例来说，工作进程1对应的分配训练作业为test.1、test.2，工作进程2对应的分配训练作业为test.3、test.4。而test.1、test.2、test.3、test.4对应的输入文件分别为data.1、data.2、data.3、data.4，则将data.1、data.2的文件名列表分配给工作进程1，将data.3、data.4文件名列表分配给工作进程2。则工作进程1及工作进程2在执行启动后，工作进程1从存储系统中读取文件名为data.1、data.2的文件，工作进程2从存储系统中读取文件名为data.3、data.4的文件。可选的，工作进程启动后根据文件名列表从存储系统中读取输入文件时，可通过预设的封装接口调用存储系统中的文件。例如，若工作进程中的执行程序不支持从存储系统中直接调用文件，则可通过预设封装的接口调用存储系统中的文件。

方式三：对输入文件进行分片处理，将分片处理得到的数据分片分配给各个工作进程，在各个工作进程启动后，通过数据通道将数据分片传输至相应的工作进程。例如，可通过InputFormat类的getSplits方法，将输入文件进行分片处理(划分为若干个逻辑块)，将分片处理得到的数据分片分配给各个工作进程，并将各个数据分片与各个工作进程的对应关系发送至各个工作进程，各个工作进程在启动后，即执行相应的分片训练作业(对应后续步骤S240)后，根据RecordReader信息(包含工作进程读取数据分片的方式，如按行读取等)通过数据通道读取相应的数据分片。可选的，当工作进程在执行相应的分片训练作业需对获取的数据分片进行多次读取时，可设置相应的读取次数参数，根据读取次数参数对获取的数据分片进行多次读取。

可选的，封装参数中还包括：版本文件路径。计算主节点322进一步适于：根据版本文件路径下载版本文件压缩包，并对版本文件压缩包进行解压，以供作业执行程序利用解压后的版本文件执行训练作业。例如，可通过cacheArchive参数中的版本文件路径下载版本文件压缩包，并在各个计算节点中自动解压，从而使得各个工作进程利用解压后的版本文件执行训练作业。

可选的，计算主节点322进一步适于：监测及控制各个工作进程的运行状态。具体地，在作业执行程序执行训练作业过程中，可周期性或实时地检测各个工作进程的运行状态。

呈现模块41，适于通过WEB界面呈现各个工作进程的运行状态。具体地，通过计算主节点322获取的各个工作进程的运行状态，以WEB界面呈现各个工作进程的运行状态。

计算节点323，适于启动相应的作业执行程序执行训练作业，获取训练得到的训练模型。

其中，每个计算节点中含有与其相对应的工作进程。具体地，利用分配的作业运行资源，启动相应的作业执行程序针对计算主节点322分配的训练样本数据进行训练处理，获取训练得到的训练模型。

进一步地，计算节点323适于：启动各个工作进程执行相应的分片训练作业。

根据计算主节点322为各个工作进程分配分片训练作业的结果，各个计算节点启动与其对应的工作进程执行相应的分片训练作业。各个工作进程针对与其对应的训练样本数据进行训练处理，获得训练得到的训练模型。

存储系统33，进一步适于将训练得到的训练模型保存至存储系统的输出路径下。

根据本发明的训练作业处理系统，通过获取待处理的基于深度学习技术的训练作业，可将各种类型和/或各种版本的深度学习技术框架的训练作业进行封装处理，从而实现多类型和/或版本深度学习技术框架的集成，并具有较高的拓展性；同时，通过对基于深度学习技术的训练作业的封装处理，将封装后的训练作业直接提交至调度平台，避免了对作业执行程序原生代码的修改，降低了迁移成本；并且，通过训练作业封装过程中的封装参数为调度平台提供为训练作业分配工作进程，及工作进程所需GPU，从而实现对训练作业运行资源的统一分配管理；并进一步根据每个工作进程所需GPU数量及通信拓扑结构，采用后续深度优先递归遍历算法分配每个工作进程的GPU，从而使得在对训练作业运行资源的统一分配管理过程中感知GPU等硬件设备的通信亲和性，提高训练作业的执行能力；并利用分配的作业运行资源，启动相应的作业执行程序执行训练作业，获取执行结果，将执行结果保存至存储系统中，实现数据的统一存取；同时，在工作进程中未安装作业执行程序所需版本或工作进程中未安装用户自定义版本时，可根据版本文件路径下载版本文件压缩包，并对版本文件压缩包进行解压，使得作业执行程序利用解压后的版本文件执行训练作业，使本系统支持各种版本的深度学习技术框架的训练任务；并且，可通过WEB界面呈现各个工作进程的运行状态，使得用户可获知各个工作进程的运行状态。采用本系统，可以实现不同类型的深度学习训练作业的统一调度，实现硬件等资源的统一分配管理及数据的统一存取，最终实现深度学习训练作业的平台化处理，提高了处理深度学习训练作业效率，并降低了人工成本。并且，本系统结构简单，易于操作与维护，具有良好的拓展性。

根据本发明一个实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的训练作业处理方法。

图5示出了根据本发明一个实施例提供的计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图5所示，该计算设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502，用于执行程序510，具体可以执行上述训练作业处理方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：

将执行结果保存至存储系统中。

所述封装参数包含以下参数的一项或多项：作业类型、作业执行命令、工作进程数量、每个工作进程所需GPU数量、输入路径、输出路径、以及作业执行程序路径。

程序510还可以用于使得处理器502执行以下操作：

依据所述输入路径从存储系统中读取记录有训练样本数据的输入文件；

启动相应的作业执行程序针对训练样本数据进行训练处理，获取训练得到的训练模型；

将训练得到的训练模型保存至存储系统的输出路径下。

程序510还可以用于使得处理器502执行以下操作：

所述调度平台根据工作进程数量分配工作进程，并根据每个工作进程所需GPU数量分配每个工作进程的GPU；

所述调度平台将训练作业进行分片处理，将分片处理得到的各个分片训练作业分配给各个工作进程。

程序510还可以用于使得处理器502执行以下操作：

根据每个工作进程所需GPU数量及通信拓扑结构，采用后续深度优先递归遍历算法分配每个工作进程的GPU。

程序510还可以用于使得处理器502执行以下操作：

启动各个工作进程执行相应的分片训练作业。

程序510还可以用于使得处理器502执行以下操作：

以文件为单位将输入文件分配给各个工作进程；

根据所述输入文件分配结果，从存储系统中下载各个工作进程所需要的输入文件至相应工作进程本地。

程序510还可以用于使得处理器502执行以下操作：

以文件为单位将输入文件分配给各个工作进程；

将分配给各个工作进程的输入文件的文件名列表发送至相应的工作进程；

各个工作进程启动后根据文件名列表从存储系统中读取输入文件。

程序510还可以用于使得处理器502执行以下操作：

对所述输入文件进行分片处理，将分片处理得到的数据分片分配给各个工作进程；

在各个工作进程启动后，通过数据通道将数据分片传输至相应的工作进程。

所述封装参数还包括：版本文件路径；

程序510还可以用于使得处理器502执行以下操作：

根据所述版本文件路径下载版本文件压缩包，并对所述版本文件压缩包进行解压，以供作业执行程序利用所述解压后的版本文件执行训练作业。

程序510还可以用于使得处理器502执行以下操作：

监测各个工作进程的运行状态；

通过WEB界面呈现各个工作进程的运行状态。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的训练作业处理系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了：A1.一种训练作业处理方法，其包括：

将执行结果保存至存储系统中。

A2.根据A1所述的方法，其中，所述封装参数包含以下参数的一项或多项：

作业类型、作业执行命令、工作进程数量、每个工作进程所需GPU数量、输入路径、输出路径、以及作业执行程序路径。

A3.根据A2所述的方法，其中，在启动相应的作业执行程序执行所述训练作业之前，所述方法还包括：依据所述输入路径从存储系统中读取记录有训练样本数据的输入文件；

所述启动相应的作业执行程序执行所述训练作业，获取执行结果具体为：启动相应的作业执行程序针对训练样本数据进行训练处理，获取训练得到的训练模型；

所述将执行结果保存至存储系统中具体为：将训练得到的训练模型保存至存储系统的输出路径下。

A4.根据A3所述的方法，其中，所述调度平台根据所述封装参数为训练作业分配作业运行资源进一步包括：

A5.根据A4所述的方法，其中，所述根据每个工作进程所需GPU数量分配每个工作进程的GPU进一步包括：

A6.根据A4或A5所述的方法，其中，所述利用分配的作业运行资源，启动相应的训练作业执行程序执行所述训练作业进一步包括：

启动各个工作进程执行相应的分片训练作业。

A7.根据A6所述的方法，其中，所述依据所述输入路径从存储系统中读取记录有训练样本数据的输入文件进一步包括：

以文件为单位将输入文件分配给各个工作进程；

A8.根据A6所述的方法，其中，所述依据所述输入路径从存储系统中读取记录有训练样本数据的输入文件进一步包括：

以文件为单位将输入文件分配给各个工作进程；

A9.根据A6所述的方法，其中，所述依据所述输入路径从存储系统中读取记录有训练样本数据的输入文件进一步包括：

A10.根据A2-A9中任一项所述的方法，其中，所述封装参数还包括：版本文件路径；

所述方法还包括：根据所述版本文件路径下载版本文件压缩包，并对所述版本文件压缩包进行解压，以供作业执行程序利用所述解压后的版本文件执行训练作业。

A11.根据A4-A9中任一项所述的方法，其中，所述方法还包括：

监测各个工作进程的运行状态；

通过WEB界面呈现各个工作进程的运行状态。

本发明还公开了：B12.一种训练作业处理系统，其包括：

客户端，适于获取待处理的基于深度学习技术的训练作业，将所述训练作业进行封装处理，封装得到的训练作业携带封装参数，并将封装得到的训练作业提交给调度平台；

存储系统，适于存储所述执行结果。

B13.根据B12所述的系统，其中，所述封装参数包含以下参数的一项或多项：

B14.根据B13所述的系统，其中，所述调度平台进一步包括：

计算主节点，适于依据所述输入路径从存储系统中读取记录有训练样本数据的输入文件；

计算节点，适于启动相应的作业执行程序针对训练样本数据进行训练处理，获取训练得到的训练模型；

所述存储系统进一步适于：将训练得到的训练模型保存至存储系统的输出路径下。

B15.根据B14所述的系统，其中，所述调度平台进一步包括：

全局资源管理节点，适于根据工作进程数量分配工作进程，并根据每个工作进程所需GPU数量分配每个工作进程的GPU；

所述计算主节点进一步适于：将训练作业进行分片处理，将分片处理得到的各个分片训练作业分配给各个工作进程。

B16.根据B15所述的系统，其中，所述全局资源管理节点进一步适于：

B17.根据B15或B16所述的系统，其中，所述计算节点进一步适于：

启动各个工作进程执行相应的分片训练作业。

B18.根据B17所述的系统，其中，所述计算主节点进一步适于：

以文件为单位将输入文件平均分配给各个工作进程；

B19.根据B17所述的系统，其中，所述计算主节点进一步适于：

以文件为单位将输入文件平均分配给各个工作进程；

将分配给各个工作进程的输入文件的文件名列表发送至相应的工作进程，以供各个工作进程启动后根据文件名列表从存储系统中读取输入文件。

B20.根据B17所述的系统，其中，所述计算主节点进一步适于：

对所述输入文件进行分片处理，将分片处理得到的数据分片分配给各个工作进程，在各个工作进程启动后，通过数据通道将数据分片传输至相应的工作进程。

B21.根据B12-B20中任一项所述的系统，其中，所述封装参数还包括：版本文件路径；

所述计算主节点进一步适于：根据所述版本文件路径下载版本文件压缩包，并对所述版本文件压缩包进行解压，以供作业执行程序利用所述解压后的版本文件执行训练作业。

B22.根据B14-B21中任一项所述的系统，其中，所述计算主节点进一步适于：监测及控制各个工作进程的运行状态；

所述系统还包括：呈现模块，适于通过WEB界面呈现各个工作进程的运行状态。

本发明还公开了：C23.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器适于存放至少一可执行指令，所述可执行指令使所述处理器执行如A1-A11任一所述的训练作业处理方法对应的操作。

本发明还公开了：D24..一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求A1-A11任一所述的训练作业处理方法对应的操作。

Claims

1.一种训练作业处理方法，其包括：

将执行结果保存至存储系统中。

2.根据权利要求1所述的方法，其中，所述封装参数包含以下参数的一项或多项：

3.根据权利要求2所述的方法，其中，在启动相应的作业执行程序执行所述训练作业之前，所述方法还包括：依据所述输入路径从存储系统中读取记录有训练样本数据的输入文件；

4.根据权利要求3所述的方法，其中，所述调度平台根据所述封装参数为训练作业分配作业运行资源进一步包括：

5.根据权利要求4所述的方法，其中，所述根据每个工作进程所需GPU数量分配每个工作进程的GPU进一步包括：

6.根据权利要求4或5所述的方法，其中，所述利用分配的作业运行资源，启动相应的训练作业执行程序执行所述训练作业进一步包括：

启动各个工作进程执行相应的分片训练作业。

7.根据权利要求6所述的方法，其中，所述依据所述输入路径从存储系统中读取记录有训练样本数据的输入文件进一步包括：

以文件为单位将输入文件分配给各个工作进程；

8.一种训练作业处理系统，其包括：

存储系统，适于存储所述执行结果。

9.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器适于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7任一所述的训练作业处理方法对应的操作。

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-7任一所述的训练作业处理方法对应的操作。