CN113569987A

CN113569987A - 模型训练方法和装置

Info

Publication number: CN113569987A
Application number: CN202110956777.5A
Authority: CN
Inventors: 胡俊琪; 魏艳伟; 朱小坤; 牛文杰; 李开荣; 包勇军
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-10-29

Abstract

本发明公开了一种模型训练方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取模型训练任务的训练配置信息，所述训练配置信息包括：角色信息、环境信息及算法配置信息；根据所述角色信息，在容器平台的集群上创建相应个数的容器；根据所述环境信息，配置所述容器对应的节点的运行环境；利用模型训练框架，在所述节点上启动所述算法配置信息对应的训练模型；利用所述容器平台，调度所述容器，以使所述节点执行所述模型训练任务。该实施方式能够提升模型训练效率且减轻工作人员的工作量。

Description

模型训练方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种模型训练方法和装置。

背景技术

现有技术中，工作人员通常通过本地物理机或者训练平台执行模型训练任务。本地物理机上执行训练任务的时间成本较高。而在训练平台上执行模型训练任务时，由于工作人员对分布式训练运行环境是无感知的，通常需要工作人员手动将训练模型部署到各工作节点上，这是十分复杂且耗时的。

发明内容

有鉴于此，本发明实施例提供一种模型训练方法和装置，能够自动将训练模型部署到各工作节点上，从而提升模型训练系统的部署效率且减轻工作人员的工作量。

第一方面，本发明实施例提供了一种模型训练方法，包括：

获取模型训练任务的训练配置信息，所述训练配置信息包括：角色信息、环境信息及算法配置信息；

根据所述角色信息，在容器平台的集群上创建相应个数的容器；

根据所述环境信息，配置所述容器对应的节点的运行环境；

利用模型训练框架，在所述节点上启动所述算法配置信息对应的训练模型；

利用所述容器平台，调度所述容器，以使所述节点执行所述模型训练任务。

可选地，所述节点执行所述模型训练任务，包括：

所述节点通过所述节点对应的容器向数据服务中心发送文件处理请求；

响应于所述文件处理请求，所述数据服务中心确定所述节点的下一批次文件信息，并将所述下一批次文件信息发送给所述节点；

所述节点获取所述下一批次文件信息对应的下一批次训练文件，并利用所述下一批次训练文件执行所述模型训练任务。

可选地，所述数据服务中心设置有针对每个所述节点的队列，所述队列中的元素用于表征所述节点未完成训练的训练文件；

所述数据服务中心确定所述节点的下一批次文件信息，包括：

根据所述文件处理请求，所述数据服务中心确定所述节点对当前批次的训练文件的处理状态；

在所述处理状态为处理成功的情况下，所述数据服务中心从所述节点对应的队列中删除目标元素，所述目标元素对应于所述当前批次的训练文件；

所述数据服务中心从所述节点对应的队列中，确定出所述节点的下一批次文件信息。

可选地，所述根据所述文件处理请求，所述数据服务中心确定所述节点对当前批次的训练文件的处理状态之后，还包括：

在所述处理状态为处理失败的情况下，根据所述数据服务中心中所述节点对应的队列中的元素，对所述节点进行容错处理。

所述利用所述容器平台，调度所述容器之后，还包括：

在系统出现故障的情况下，获取所述数据服务中心中各所述节点对应的队列中的元素；

根据各所述节点对应的队列中的元素，对各所述节点进行容错处理。

可选地，所述角色信息包括：角色与节点的对应关系，所述角色包括以下至少之一：主节点、工作节点、参数服务器及数据中心；

所述根据所述角色信息，在容器平台的集群上创建相应个数的容器，包括：

根据所述角色与节点的对应关系，在所述容器平台的集群中的各节点上创建对应的容器。

可选地，所述容器平台采用kubernetes搭建，所述模型训练框架采用tensorflow。

第二方面，本发明实施例提供了一种模型训练装置，包括：

信息获取模块，用于获取模型训练任务的训练配置信息，所述训练配置信息包括：角色信息、环境信息及算法配置信息；

容器创建模块，用于根据所述角色信息，在容器平台的集群上创建相应个数的容器；

环境配置模块，用于根据所述环境信息，配置所述容器对应的节点的运行环境；

模型启动模块，用于利用模型训练框架，在所述节点上启动所述算法配置信息对应的训练模型；

任务执行模块，用于利用所述容器平台，调度所述容器，以使所述节点执行所述模型训练任务。

第三方面，本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一实施例所述的方法。

第四方面，本发明实施例提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例所述的方法。

上述发明中的一个实施例具有如下优点或有益效果：根据训练配置信息，在容器平台的集群上创建相应个数的容器。容器能够起到隔离资源与运行环境的作用，进而在各容器对应的节点上配置运行环境并利用模型训练框架启动训练模型。最后，通过调度各容器，使节点执行模型训练任务。工作人员根据需求预先配置好模型训练任务的训练配置信息即可，而无需手动将训练模型部署到各工作节点上。因此，能够减轻工作人员的工作量且提升分布式模型训练系统的部署效率。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是本发明的一个实施例提供的一种模型训练方法的流程的示意图；

图2是本发明的一个实施例提供的另一种模型训练方法的流程的示意图；

图3是本发明的一个实施例提供的一种模型训练系统的整体架构的示意图；

图4是本发明的一个实施例提供的一种数据服务中的处理流程的示意图；

图5是本发明的一个实施例提供的又一种模型训练方法的流程的示意图；

图6是本发明的一个实施例提供的一种模型训练装置的结构示意图；

图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

模型训练平台往往支持多种不同业务场景下的模型训练，如排序模型，精排模型，广告点击率预估，强化学习等模型。这类模型训练有以下几个特点：训练所需要的机器规模庞大；单次实验的时间较长；训练中需要的机器环境各不一样。在生产环境中，因各种不同工作节点的环境异常导致整个训练任务中断的情况常有发生。此外，算法人员对分布式训练运行环境是无感知的，他们需要手动将模型扩展到多机分布式模式(包括切分模型，分发训练数据到不同的工作节点)，这也是十分复杂且耗时的。

基于此，本发明实施例设计了一种模型训练方法。图1是本发明的一个实施例提供的一种模型训练方法的流程的示意图。如图1所示，该方法包括：

步骤101：获取模型训练任务的训练配置信息，训练配置信息包括：角色信息、环境信息及算法配置信息。

用户可在训练系统的客户端输入的信息包括：配置文件、算法配置文件等。配置文件中可包括：各个角色集群资源、镜像信息等。算法配信息可包括：模型配置信息和训练方式，用于在模型训练框架中启动训练框架。

步骤102：根据角色信息，在容器平台的集群上创建相应个数的容器。

容器平台可为基于容器的调度框架搭建的平台。容器能够起到隔离资源与运行环境的作用，通过容器能够实现控制训练任务的资源调度，不同节点的运行环境及模型算法的配置。容器平台可采用Kubernetes、集中式调度器Hadoop YARN、双层调度器Mesos等搭建。

可通过如下方式在在容器平台的集群上创建相应个数的容器：

方式1.角色可包括以下至少之一：主节点、工作节点、参数服务器及数据中心。角色信息可包括：角色与节点的对应关系。根据角色与节点的对应关系，在容器平台的集群中的各节点上创建对应的容器。配置文件中角色信息的形式可如下：节点1worker；节点2worker；节点3ps。容器平台则在节点1、节点2及节点3上创建相应的容器。

方式2.容器平台的集群中有多个节点(物理机)，平台侧会记录每个节点可用的资源，包括：cpu、gpu、内存数等。在接收到用户的配置文件后，容器平台会根据创建策略来往这些可用的节点上启动相应的容器。创建策略可包括：不同角色对应的节点数目、不同角色对于资源的需求等。1个节点可以对应1个或多个容器，1个容器也可以对应1个或多个节点，由调度策略和机器可用资源共同决定。

步骤103：根据环境信息，配置容器对应的节点的运行环境。

环境信息中可包括镜像信息。容器平台会根据镜像信息启动节点相应的环境。进一步地，容器平台会根据镜像信息启动至少一个工作节点相应的环境。针对不同的模型训练任务，如：排序模型，精排模型，广告点击率预估，可分别在不同训练任务对应的工作节点上启动不同的环境。

步骤104：利用模型训练框架，在节点上启动算法配置信息对应的训练模型。

模型训练框架为可实现分布式模型训练框架，如tensorflow、Pytorch、MXNet、PaddlePaddle等。

步骤105：利用容器平台，调度容器，以使节点执行模型训练任务。

利用容器平台，调度容器，再通过预设的调度算法，实现对工作节点采用不同的调度策略。

在本申请的实施例中，系统能够根据训练配置信息，在容器平台的集群上创建相应个数的容器。容器能够起到隔离资源与运行环境的作用，进而在各容器对应的节点上配置运行环境并启动训练模型。最后，通过调度各容器，使节点执行模型训练任务。工作人员根据需求预先配置好模型训练任务的训练配置信息即可，而无需手动将训练模型部署到各工作节点上。因此，能够减轻工作人员的工作量且提升分布式模型训练系统的部署效率。

模型训练的框架层负责感知并且运行深度学习等分布式计算模型，但对于训练任务失败后自动重启是无法干预的。因此，如何通过一种有效的方法，在机器学习训练平台的调度层和框架层之间做改进，以实现生产环境中大规模的分布式训练自动容错处理是很有帮助的。

在生产环境中存在一个比较普遍的现象：由于训练过程中一般都需要依赖许多第三方库(HDFS、CFS共享存储、hadoop、kafka等)，而它们的稳定性不一定能保证，很多已经训练很久任务偶尔会受波动而失败。由于无法控制依赖的别的集群的环境，只能从平台侧寻找有效的容错方法。此外很重要的一点是：分布式环境中需要工作节点并行加载数据进行训练，如何保证训练任务在失败重启后的一致性也是很重要的问题。因此，本发明实施例通过创建一个数据中心组件来对训练中的数据信息进行管理来保证工作节点(worker)间的一致性。

现有技术中，每个业务方根据各自业务场景需求，各自封装一层自定义训练框架，分布式训练运行方式各自不一致。基于不同分布式训练框架的业务，算法工程师对各个训练任务的各个工作节点无法感知，容错处理依赖业务方框架的实现，并且由于无法控制平台调度层，无法做到全自动容错。

基于此，本发明实施例设计了一种模型训练方法，通过数据服务中心控制训练数据的分发，并记录各工作节点的训练状态，实现系统的容错。图2是本发明的一个实施例提供的另一种模型训练方法的流程的示意图。如图2所示，该方法包括：

步骤201：获取模型训练任务的训练配置信息，训练配置信息包括：角色信息、环境信息及算法配置信息。

步骤202：根据角色信息，在容器平台的集群上创建相应个数的容器。

步骤203：根据环境信息，配置容器对应的节点的运行环境。

步骤204：利用模型训练框架，在节点上启动算法配置信息对应的训练模型。

步骤205：利用容器平台，调度容器，以使节点执行模型训练任务。

步骤206：节点通过其对应的容器向数据服务中心发送文件处理请求。

数据服务中心中可设置有针对每个节点的队列，队列中的元素用于表征节点未完成训练的训练文件。队列中的元素可以为训练文件的文件标识、文件存储路径、文件名称等。

数据中心中还可设置每个节点的状态标识，状态标识表示节点针对当前批次的训练文件的训练状态，状态标识可包括：未处理、正在处理、处理成功、处理失败等。

步骤207：根据文件处理请求，数据服务中心确定节点对当前批次的训练文件的处理状态。

在处理状态为处理成功的情况下，执行步骤208。在处理状态为处理失败的情况下，执行步骤211。

步骤208：数据服务中心从节点对应的队列中删除目标元素，目标元素对应于当前批次的训练文件。

步骤209：数据服务中心从节点对应的队列中，确定出节点的下一批次文件信息，并将下一批次文件信息发送给节点。

下一批次文件信息可以为下一批次文件的文件标识、文件存储路径、文件名称等。通过下一批次文件信息，节点可获取到下一批次文件，进而利用下一批次文件进行机器学习训练。

数据服务中心将下一批次文件信息发送给节点之后，可将该节点对应的状态标识修改为正在处理。

步骤210：节点获取下一批次文件信息对应的下一批次训练文件，并利用下一批次训练文件执行模型训练任务。

步骤211：根据数据服务中心中节点对应的队列中的元素，对节点进行容错处理。

在单个工作节点出现故障的情况下，根据该工作节点的队列进行容错处理。将队列中的元素作为检查点保存，每个工作器节点将读取先前保存的检查点文件，并获取工作节点以前的状态，从而使群集能够恢复同步，然后继续训练。

在本发明的一个实施例中，利用容器平台，调度容器之后，还包括：在系统出现故障的情况下，获取数据服务中心中各节点对应的队列中的元素；根据各节点对应的队列中的元素，对各节点进行容错处理。

在系统出现故障的情况下，比如主节点故障、参数服务器节点故障等，则需要对所有工作节点进行处理。如果一个非主节点的工作节点出现故障，问题不大，重新启动一个工作节点就行了。如果一个参数服务器节点出现故障，主节点会暂停所有工作节点的作业，并在上一个检查点恢复所有参数服务器节点的任务。如果主节点出现故障，类似参数服务器节点出现故障，全部暂停所有工作节点的作业，等故障修复后，把主节点的任务恢复到上一个检查点的状态。

在本发明实施例中，利用数据服务中心统一控制训练数据的分发，可以确定各工作节点当前的训练状况，且可以减少因为机器环境异常或网络异常导致的模型训练失败的几率。

整个过程需要通过训练平台统一进行分布式调度分布式训练部署到计算集群的，利用数据中心服务组件统一对训练数据的分发可以减少模型训练因为机器环境异常或网络异常导致的模型训练失败的几率，这实现计算集群的有效使用，提高利用效率，并且也可以提升算法人员算法的迭代效率，带来线上模型效果的提升。此外，数据中心服务组件还能记录训练中每个工作节点当前的训练所使用的数据，这也保证工作节点在失败重启后能加载失败前的数据继续训练，保证了w工作节点间的一致性。

为使本发明实施例的方法更加便于理解，以下容器平台采用kubernetes搭建，模型训练框架采用tensorflow，作为一个具体实施例进行讲解。图3是本发明的一个实施例提供的一种模型训练系统的整体架构的示意图。如图3所示，该系统建构主要包括以下部分：

(1)数据存储器：主要由HDFS数据存储器及共享数据存储器两部分组成。

HDFS数据存储器。基于分布式文件存储的共享训练模型日志信息存储器。HDFS数据存储器主要是指HDFS存储，存储的是训练数据。

共享数据存储器。主要实现的是对每个任务训练产生的模型和日志实现持久化存储，保证分布式训练时多个不同的工作节点能够实现文件的共同读取；训练代码存储器主要实现的功能是，利用任务中每个工作节点都有一个公共的文件访问路径，实现代码文件的共享和持久化，确保训练工作节点异常重启后能拿到训练代码文件。共享数据存储：主要是指cfs(文件存储，Cloud File Storage)，是在训练容器中挂载的网盘，里面存放了模型代码和训练日志。

(2)训练流程启动器：该部分的主要功能是分布式训练任务启动和集群部署，总共可以分为三部分：

任务分发部署，训练任务状态监控和容错重启流程；其中任务分发部署通过机器学习平台的客户端，根据用户的配置信息一键创建分布式任务。可以在kubernetes集群上创建pod，简化了分布式训练任务的调度，解决了大规模机器学习的统一调度问题。

训练任务状态监控，由于算法工程师主要任务是写分布式训练代码，当训练节点数量较多时，对于训练的进程是否正常运行的监控是十分繁琐的。因此获取训练任务的状态十分困难，无法感知训练任务是否出错并且需要重启训练。平台实现了pod内各个worker节点的状态的实时汇报和实时任务的监控报警的功能。在得到任务的训练状态后传递到相应工作节点的调度器上，继而实现再调度和再重启。容错重启流程，具体是利用共享文件和kubernetes的机制，实现工作节点重新调度后，能够恢复到之前的软件环境，重而重新拉取训练进程。

(3)Kubernetes集群管理器：该解决方案底层硬件主要基于kubernetes容器集群管理系统搭建的，它会依据用户所写的配置信息，配置任务所需的基础环境，并通过控制中心将任务分发到集群相应的物理节点。通过docker技术，平台实现了多任务的环境和资源隔离。kubernetes是一个全新的基于容器技术的分布式架构领先方案，也是一个具有完备的分布式系统支撑平台，又有较高的可靠性和扩展性。

(4)数据中心服务器：大部分分布式机器学习任务分为模型并行和数据并行两种模式。而京东广告和推荐相关场景业务主要采用的是数据并行的分布式训练，本专利的主要贡献点是针对于数据并行的分布式训练场景的。数据中心服务器主要功能是根据用户配置信息记录训练文件，根据worker数量进行训练文件的分发。该功能还可以根据worker训练完文件，记录文件消费的状态，通过多种队列方式记录文件处理信息。另外，数据中心服务器还可以通过对训练文件进行错误检测，对于访问hdfs异常进行容错处理，保持训练任务能一直进行。

(5)分布式训练框架：分布式机器学习训练任务大多是通过算法人员自己搭建的基于深度学习训练框架编写的业务代码，因而深度学习框架自身的容错能力也是本方案中必不可少的一环。基于框架层，由于所有worker在训练周期中需要保持一致性，假如一个worker，工作器重新加入集群后，其他工作器也将重新启动。现在，每个工作器都将读取先前保存的检查点文件，并获取其以前的状态，从而使群集能够恢复同步，然后继续训练。如果一个非主节点的工作挂了，问题不大，重新启动一个工作节点就行了。如果一个参数服务器节点挂了，主节点会暂停所有工作节点的作业，并在上一个检查点恢复所有参数服务器的任务。如果出节点挂了，类似参数服务器节点挂了，全部暂停，等故障修复后，把主节点恢复到上一个检查点的状态。

图4是本发明的一个实施例提供的一种数据服务中的处理流程的示意图。如图4所示，本发明实施例的方案在分布式集群里部署单独的一个数据中心服务(data-service)。data-service服务的主要功能是：首先需要从训练数据的分布式存储上获取相应的文件名，通过tensorflow中Dataset模块将其实例化为一个GeneratorDataset。然后，基于该dataset，实现一个基于grpc服务的负责数据分发和data-checkpoint的Dataset。

与tensorflow在加载数据不同的地方是：训练过程中的工作节点(worker)是与数据中心服务进行通信获取数据集文件进行训练的。基于自定义的tenserflow Dataset，通过创建grpc服务，发送到数据中心服务端，从而获取相应训练数据文件，并且会在数据中心留下相应的文件的记录。这大大降低了多个worker在获取训练数据中出错的概率，实现了训练文件的可感知和训练中对于文件级别的训练数据的容错。

图5是本发明的一个实施例提供的又一种模型训练方法的流程的示意图。如图5所示，整体平台架构整体流程是通过客户端提交分布式训练，预估或者验证任务到kubernetes集群中。任务开始时，数据服务中心会获取包含所有文件名的文件列表，加载到所在pod内存中(不属于其中一个worker)。随后，worker工作节点在运行时会向数据中心请求数据集文件，处理完后汇报状态，然后再获取下一个文件。该方法包括如下步骤：

步骤S01：用户通过客户端命令行工具，首先判断用户是否登录，用户注册信息通过基于django的用户注册系统创建的，登录成功后获取对应的分布式容错权限，从而可以往集群提交分布式容错的训练任务。

步骤S02：根据用户指定的算法文件和配置的路径，来检验用户自定义的训练框架代码的合法性。并且也可以经过这个配置文件里的信息，获取到分布式训练过程中各个角色，包括数据中心服务的镜像环境信息信息。

步骤S03：由于部门内部开发的机器学习框架版本会不停的更新，用户算法的环境不同，该方案提供了一个支持多版本的算法任务提交模块，具体的是指通过docker容器镜像和kubernetes的完美交合，实现了用户对多个版本，多个训练节点的不同训练环境的需求。

步骤S04：分布式机器学习平台核心功能点，主要是通过云原生的kubernetes对tensorflow分布式集群的多个角色机器，主节点(chief)、工作节点(worker)、参数服务器(ps)、数据中心(data-service)，自动地分配计算资源和创建pod。通过容错功能可以避免由于硬件问题或者通信问题导致的模型训练失败的情况。具体地，包含以下阶段：

阶段1.分布式训练创建阶段，本阶段主要通过对用户提供的算法目录，解析配置文件信息，通过客户端创建出对应的一系列分布式训练资源，包括cpu&gpu的资源。具体的，针对每一个分布式训练，把它都任务化，方便管理。通过对单个任务设置单独的训练id，然后对配置文件的解析，知道任务启动过程中所有的机器角色的数量，从而分配pod。并通过kubernetes的deployment来实现多个副本的及时更新和管理，并且可以通过自定义的调度算法，实现对工作节点采用不同的调度策略。

阶段2.任务激活阶段，由于要兼顾机器问题或者网络问题导致的训练任务训练失败。在任务激活阶段，主要实现的是用户算法文件打包同步到分布式共享存储文件系统上，然后在实际训练时把算法框架同步到机器的磁盘上，然后通过脚本文件拉起训练任务，启动分布式训练。数据服务节点和分布式训练的节点都可以通过该步骤，实现单个节点失败后能够重新调度pod激活任务。

阶段3.训练出错重启阶段，本阶段主要的功能是，在数据中心服务节点设置一个数据服务中心。分布式训练中worker节点通过请求数据服务节点获取单批次的训练文件，最终消费完全部文件。具体地，训练节点worker端通过基于grpc服务的Dataset的迭代器读入训练样本以文件名为形式的迭代器，然后通过tf.data.Dataset进行相应转换操作并用于后续计算。worker对上述获取的文件名，会用过checkpoint做保存以实现容错机制。具体地，每个训练worker节点都会有一个队列，如果这个文件处理完，则数据服务中心移除这个数据文件；如果文件正在处理过程中，这标识正在处理状态；如果文件在处理过程中出错了，例如访问HDFS机器异常，获取到错误文件名，则进行相应的处理，使之拥有容错能力。

在本发明的实施例中，实现更加高效的弹性的机器学习分布式训练计算资源和环境的搭建；提高机器的利用率，为大规模机器学习提供稳定的基础环境；充分把不同业务方基于tensorflow二次开发的训练框架抽象组合在一起，针对于大规模的分布式训练任务，提供公共的数据中心模块，统一由数据中心分发数据，降低worker由于网络问题引起数据拉取超时导致的训练任务失败的概率，此外数据中心模块还会记录训练中worker所使用的数据，保证worker重启后的一致性；同时方案会通过kubernetes分布式任务调度和分布式机器学习框架组合，通过微服务架构，来实现分布式训练整体流程，支持训练任务热重启，实现了容错功能。

本发明实施例的方案的关键点在于，kubernetes与机器学习分布式训练的结合，其创新点在于利用kubernetes基于容器技术的分布式架构解决方案，能够很好的把分布式机器学习框架运行到kubernetes集群管理上，继而可以通过代码端的控制，获取到kubernetes中分布式训练参与的工作节点的状态，避免在大规模的训练机器时出现的机器问题和网络问题导致的训练中断，实现任务的容错话处理。同样的，由于kubernetes是基于容器基础上搭建的，因此，本发明实施例中的机器学习平台可以实现多版本的开发环境需求，并且通过容器化的环境解决方案，实现了一键创建大规模分布式任务，同时对于不同的机器学习框架的需求也可以兼容数据中心模块的核心内容实现快速的兼容，从而非常简单的实现分布式训练任务的容错。

图6是本发明的一个实施例提供的一种模型训练装置的结构示意图。如图6所示，该装置包括：

信息获取模块601，用于获取模型训练任务的训练配置信息，所述训练配置信息包括：角色信息、环境信息及算法配置信息；

容器创建模块602，用于根据所述角色信息，在容器平台的集群上创建相应个数的容器；

环境配置模块603，用于根据所述环境信息，配置所述容器对应的节点的运行环境；

模型启动模块604，用于利用模型训练框架，在所述节点上启动所述算法配置信息对应的训练模型；

任务执行模块605，用于利用所述容器平台，调度所述容器，以使所述节点执行所述模型训练任务。

可选地，任务执行模块605还用于：

任务执行模块605还用于：根据所述文件处理请求，所述数据服务中心确定所述节点对当前批次的训练文件的处理状态；

可选地，任务执行模块605还用于：在所述处理状态为处理失败的情况下，根据所述数据服务中心中所述节点对应的队列中的元素，对所述节点进行容错处理。

任务执行模块605还用于：在系统出现故障的情况下，获取所述数据服务中心中各所述节点对应的队列中的元素；

容器创建模块602具体用于：根据所述角色与节点的对应关系，在所述容器平台的集群中的各节点上创建对应的容器。

本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述任一实施例的方法。

下面参考图7，其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：信息获取模块、容器创建模块、环境配置模块、模型启动模块及任务执行模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，信息获取模块还可以被描述为“获取模型训练任务的训练配置信息的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

根据所述环境信息，配置所述容器对应的节点的运行环境；

根据本发明实施例的技术方案，系统能够根据训练配置信息，在容器平台的集群上创建相应个数的容器。容器能够起到隔离资源与运行环境的作用，进而在各容器对应的节点上配置运行环境并启动训练模型。最后，通过调度各容器，使节点执行模型训练任务。工作人员根据需求预先配置好模型训练任务的训练配置信息即可，而无需手动将训练模型部署到各工作节点上。因此，能够减轻工作人员的工作量且提升模型训练效率。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种模型训练方法，其特征在于，包括：

根据所述环境信息，配置所述容器对应的节点的运行环境；

2.根据权利要求1所述的方法，其特征在于，所述节点执行所述模型训练任务，包括：

3.根据权利要求2所述的方法，其特征在于，所述数据服务中心设置有针对每个所述节点的队列，所述队列中的元素用于表征所述节点未完成训练的训练文件；

4.根据权利要求3所述的方法，其特征在于，所述根据所述文件处理请求，所述数据服务中心确定所述节点对当前批次的训练文件的处理状态之后，还包括：

5.根据权利要求2所述的方法，其特征在于，所述数据服务中心设置有针对每个所述节点的队列，所述队列中的元素用于表征所述节点未完成训练的训练文件；

所述利用所述容器平台，调度所述容器之后，还包括：

6.根据权利要求1所述的方法，其特征在于，所述角色信息包括：角色与节点的对应关系，所述角色包括以下至少之一：主节点、工作节点、参数服务器及数据中心；

7.根据权利要求1所述的方法，其特征在于，所述容器平台采用kubernetes搭建，所述模型训练框架采用tensorflow。

8.一种模型训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。