CN112596863A

CN112596863A - 监控训练任务的方法、系统及计算机存储介质

Info

Publication number: CN112596863A
Application number: CN202011587110.4A
Authority: CN
Inventors: 杨正刚; 李小芬; 杨育; 易文峰
Original assignee: Shenzhen Digital Power Grid Research Institute of China Southern Power Grid Co Ltd
Current assignee: Shenzhen Digital Power Grid Research Institute of China Southern Power Grid Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-02
Anticipated expiration: 2040-12-28
Also published as: CN112596863B

Abstract

本申请公开了一种监控训练任务的方法、系统及计算机存储介质，涉及计算机技术领域，方法包括接收待处理的训练任务的启动请求；将启动请求发送给kubernetes集群的主节点，以使主节点创建相应的容器；获取容器的启动状态；根据启动状态，将训练任务的训练信息通过消息队列发送给容器，以控制容器的训练行为。因此，可以通过统一的应用平台，接收每一训练任务的启动请求，并通过统一的应用平台与kubernetes集群通信连接，实现在一个平台上对kubernetes集群中每一容器的训练行为的操作，减少人为干预的行为，从而提升管理训练任务的便利性。

Description

监控训练任务的方法、系统及计算机存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种监控训练任务的方法、系统及计算机存储介质。

背景技术

随着人工智能的飞速发展，深度学习被广泛应用于日常生活中。基于kubernetes集群的部署方式由于其环境部署更为简单，被大量应用。但是基于kubernetes集群的部署方法，主节点对于容器的操作仅限于环境的部署，当需要对容器进行操作时，需要登录到对应的容器进行操作，对于多个容器的场景，需要人为管理多个容器的训练任务，导致管理训练任务不够便利。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提供了一种监控训练任务的方法、系统及计算机存储介质，能够提升管理训练任务的便利性。

根据本申请第一方面实施例的一种监控训练任务的方法，所述方法包括：

接收待处理的训练任务的启动请求；

将所述启动请求发送给kubernetes集群的主节点，以使所述主节点创建相应的容器；

获取所述容器的启动状态；

根据所述启动状态，将所述训练任务的训练信息通过消息队列发送给所述容器，以控制所述容器的训练行为。

根据本申请的上述实施例，至少具有如下有益效果：可以通过统一的应用平台，接收每一训练任务的启动请求，并通过统一的应用平台与kubernetes集群通信连接，实现在一个平台上对kubernetes集群中每一容器的训练行为的操作，减少人为干预的行为，从而提升管理训练任务的便利性。

根据本申请第一方面一些实施例的监控训练任务的方法，所述将所述启动请求发送给kubernetes集群的主节点，以使所述主节点创建相应的容器，包括：

获取kubernetes集群中服务器的空闲数量；

根据所述服务器的空闲数量，将待处理的训练任务的启动请求发送给kubernetes集群的主节点，以使所述主节点创建相应的容器。

因此，通过空闲数量可以知道kubernetes集群是否可以启动一个训练任务，从而可以根据该空闲数量发送，以保证每一待处理的训练任务均被执行。

根据本申请第一方面一些实施例的监控训练任务的方法，所述根据所述启动状态，将所述训练任务的训练信息通过消息队列发送给所述容器，以控制所述容器的训练行为，包括：

获取所述训练任务的训练素材；

将所述训练素材通过消息队列发送给所述容器；

通过消息队列发送启动消息指令给所述容器，以使所述容器根据所述训练素材进行训练。

因此，通过在统一平台将训练素材发送给容器，避免登录到容器中进行训练素材的处理，从而提升管理训练任务的便利性。

根据本申请第一方面一些实施例的监控训练任务的方法，所述根据所述启动状态，将所述训练任务的训练信息通过消息队列发送给所述容器，以控制所述容器的训练行为，还包括：

接收所述训练任务的暂停指令；

将所述暂停指令通过所述消息队列发送给所述容器，以暂停所述容器的训练；

获取所述训练任务新的训练素材和/或所述训练任务的训练参数；

将新的所述训练素材和/或所述训练参数通过消息队列发送给所述容器。

因此，当需要对容器中的训练内容进行调整时，可以通过统一的平台进行处理，以实现训练任务处理的多样化。

接收所述训练任务的重启指令；

将所述重启指令通过所述消息队列发送到所述容器，以重新启动所述容器的训练任务。

因此，通过在统一的平台控制容器的启动，可以在容器的训练任务被暂停的情况下，通过统一的平台控制，避免需要登录容器所在的服务器进行操作，提升训练任务操作的便利性。

根据本申请第一方面一些实施例的监控训练任务的方法，所述方法还包括周期获取所述容器的操作日志，并将所述操作日志保存。因此，通过将容器的操作日志进行获取，可以在统一的平台进行容器的状态查询，无需登录到指定的容器，提升操作的便利性。

根据本申请第一方面一些实施例的监控训练任务的方法，所述方法还包括：

接收所述训练任务的进度查询指令；

根据所述进度查询指令，获取所述训练任务的所述操作日志；

根据所述操作日志，将所述训练任务的进度信息图像化显示。

因此，通过在统一平台的进度信息进行图形化显示，可以更加直观的查看训练任务的情况。

根据本申请第二方面实施例的一种监控训练任务的系统，包括：

服务器群，所述服务器群包括至少一个服务器，所述服务器群用于部署Kubernetes集群；

存储器，所述存储器与所述服务器通信连接；

AI平台，所述AI平台与所述服务器通信连接；所述AI平台执行所述指令时实现如第一方面任一项所述的监控训练任务的方法，所述Kubernetes集群用于根据所述AI平台的操作指令进行容器创建以及训练任务执行。

根据本申请第三方面实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面任一项所述的监控训练任务的方法。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请实施例的监控训练任务的方法流程示意图；

图2是本申请实施例的步骤S400的流程示意图；

图3是本申请实施例的设备的结构图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

下面参照图1至图3描述本申请的监控训练任务的方法、系统及计算机存储介质。

可理解为，如图1所示的监控训练任务的方法，包括：

步骤S100、接收待处理的训练任务的启动请求。

步骤S200、将启动请求发送给kubernetes集群的主节点，以使主节点创建相应的容器；

需说明的是，训练任务的具体执行操作是在kubernetes集群中处理，首先，kubernetes集群的主节点110在kubernetes集群的服务器上创建容器120，并部署相关的环境文件如TensorFlow，jieba，opencv等到容器对应的服务器中，当容器120的训练任务被启动时，训练任务在容器120中进行自主训练。

步骤S300、获取所述容器的启动状态。

步骤S400、根据启动状态，将训练任务的训练信息通过消息队列发送给容器120，以控制容器120的训练行为。

需说明的是，当容器120创建失败，则启动状态为失败，此时无需发送训练信息给容器120所在的服务器。容器120可以理解为kubernetes集群的从节点。

因此，可以通过统一的应用平台，接收每一训练任务的启动请求，并通过统一的应用平台与kubernetes集群通信连接，实现在一个平台上对kubernetes集群中每一容器120的训练行为的操作，减少人为干预的行为，从而提升管理训练任务的便利性。

可理解为，步骤S200，包括如下两个子步骤：

步骤1、获取kubernetes集群中服务器的空闲数量。

需说明的是，kubernetes集群的主节点110可以监控容器120的执行情况，因此，可以通过kubernetes集群的主节点110得到服务器空间数量。在另一些实施例中，统一的平台记录了每个训练任务的启动状态以及执行情况，此时，可以根据前一个训练任务的启动状态判断是否有空闲数量，当前一个训练任务启动，表示kubernetes集群可能存在空闲的服务器，此时空闲数量设置为非0。当前一个训练任务启动失败时，空闲数量设置为非0。

步骤2、根据服务器的空闲数量，将待处理的训练任务的启动请求发送给kubernetes集群的主节点110，以使主节点创建相应的容器。

需说明的是，当空闲数量为非0时，表示kubernetes集群可进行容器120处理，此时优先将将启动失败的训练任务发送给kubernetes集群的主节点110。当不存在启动失败的训练任务时，将未处理过的训练任务的启动请求发送给kubernetes集群的主节点110。

可理解为，步骤S400，如图2所示，包括：

步骤S410、获取训练任务的训练素材。

需说明的是，训练素材可以存储在统一的平台的存储器中，也可以通过统一的平台设置的训练素材的下载路径，在训练任务的容器120启动时，根据下载路径进行下载。

步骤S420、将训练素材通过消息队列发送给容器120。

步骤S430、通过消息队列发送启动消息指令给容器120，以使容器120根据训练素材进行训练。

因此，通过在统一平台将训练素材发送给容器120，避免登录到容器120中进行训练素材的处理，从而提升管理训练任务的便利性。

可理解为，如图2所示，步骤S330之后还包括：

步骤S440、接收训练任务的暂停指令。

步骤S450、将暂停指令通过消息队列发送给容器120，以暂停容器120的训练。

步骤S460、获取训练任务新的训练素材和/或训练任务的训练参数。

需说明的是，训练参数是容器120中训练模型所需的参数，可以调整训练模型的训练效果。相应的，容器120中训练模型的参数需要设置为可变的，从而可以根据训练参数对训练模型进行修改。

需说明的是，增加训练素材，可以提升训练模型的训练效果。

步骤S470、将新的训练素材和/或训练参数通过消息队列发送给容器120。

因此，当需要对容器120中的训练内容进行调整时，可以通过统一的平台进行处理，以实现训练任务处理的多样化。

需说明的是，当容器120接收到新的训练素材或训练参数后，可以登录容器120所在的服务器进行容器120的重启动或者通过如下方式进行处理。

可理解为，步骤S370之后，还包括：

步骤S480、接收训练任务的重启指令。

步骤S490、将重启指令通过消息队列发送到容器120，以重新启动容器120的训练任务。

因此，通过在统一的平台控制容器120的启动，可以在容器120的训练任务被暂停的情况下，通过统一的平台控制，避免需要登录容器120所在的服务器进行操作，提升训练任务操作的便利性。

可理解为，步骤S400之后还包括：

周期获取容器120的操作日志，并将操作日志保存。

因此，通过将容器120的操作日志进行获取，可以在统一的平台进行容器120的状态查询，无需登录到指定的容器120，提升操作的便利性。

需说明的是，当统一的平台存储了操作日志后，用户可以从统一的平台根据训练任务对应的容器120信息，得到对应的操作日志，从而可以查看训练任务的执行情况。

可理解为，步骤S400之后，还包括：

接收训练任务的进度查询指令。

根据进度查询指令，获取训练任务的操作日志。

根据操作日志，将训练任务的进度信息图像化显示。

根据本申请第二方面实施例的一种监控训练任务的系统，如图3所示，包括：

服务器群100，服务器群100包括至少一个服务器，服务器群100用于部署Kubernetes集群；

存储器，存储器与服务器通信连接；

AI平台300，AI平台与300服务器通信连接；AI平台300执行指令时实现如第一方面任一项的监控训练任务的方法，Kubernetes集群用于根据AI平台300的操作指令进行容器120创建以及训练任务执行。

需说明的是，Kubernetes集群中的主从节点可以部署在同一服务器或不同的服务器上。存储器用于存储服务器的日志信息。

需说明的是，AI平台300可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件或者被实施为硬件、测量仪器，或者被实施为集成电路，如专用集成电路。

根据本申请第三方面实施例的一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行第一方面任一项的监控训练任务的方法。

需说明的是，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

需说明的是，本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤可以被实施为软件、固件、硬件及其适当的组合。

下面参考图1至图3以一个具体的实施例详细描述根据本申请实施例的管理训练任务的方法。值得理解的是，下述描述仅是示例性说明，而不是对申请的具体限制。

首先，在服务器群100上部署kubernetes集群。

进一步，如图1，参照步骤S100，AI平台300接收用户输入的训练任务的启动请求。具体的，参照步骤S200的子步骤，AI平台300根据当前已接收的训练任务的启动状态，发送待执行的训练任务的启动请求给kubernetes集群的主节点110。此时，kubernetes集群的主节点110获取空闲的服务器，并在空闲服务器中启动容器120。此时，参考步骤S300，AI平台300接收到容器120启动的信息，并参照步骤S400通过消息队列将训练信息发送给容器120，容器120根据训练信息执行对应的操作。

具体的，参照步骤S310～步骤S330，训练任务所在的容器120接收到训练素材后保存，并根据启动执行开始训练模型的训练操作。

进一步，当用户需要变更训练参数时，参照步骤S440～步骤S470，完成训练参数的变更。

进一步，当用户需要变更训练素材时，参照步骤S440～步骤S470，完成训练素材的变更。

进一步，参照步骤S480～步骤S490实现容器120的训练任务的重启。此时，容器120将训练好的模型发送至文件服务器。停止该训练任务的训练行为。

进一步，在容器120进行训练任务训练过程中，会周期将操作日志发送给AI平台300，此时AI平台300会将操作日志保存。当接收到用户查询指定训练任务的进度信息时，AI平台300会根据查询的训练任务的信息找到对应的操作日志，并将操作日志中记录的进度信息进行图形化显示。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施例，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

Claims

1.一种监控训练任务的方法，其特征在于，所述方法包括：

接收待处理的训练任务的启动请求；

获取所述容器的启动状态；

2.根据权利要求1所述的监控训练任务的方法，其特征在于，

所述将所述启动请求发送给kubernetes集群的主节点，以使所述主节点创建相应的容器，包括：

获取kubernetes集群中服务器的空闲数量；

3.根据权利要求1所述的监控训练任务的方法，其特征在于，

所述根据所述启动状态，将所述训练任务的训练信息通过消息队列发送给所述容器，以控制所述容器的训练行为，包括：

获取所述训练任务的训练素材；

将所述训练素材通过消息队列发送给所述容器；

4.根据权利要求3所述的监控训练任务的方法，其特征在于，

所述根据所述启动状态，将所述训练任务的训练信息通过消息队列发送给所述容器，以控制所述容器的训练行为，还包括：

接收所述训练任务的暂停指令；

5.根据权利要求3或4所述的监控训练任务的方法，其特征在于，

接收所述训练任务的重启指令；

6.根据权利要求1所述的监控训练任务的方法，其特征在于，还包括：

周期获取所述容器的操作日志，并将所述操作日志保存。

7.根据权利要求6所述的监控训练任务的方法，其特征在于，还包括：

接收所述训练任务的进度查询指令；

8.一种监控训练任务的系统，其特征在于，包括：

至少一个服务器，所述服务器用于部署Kubernetes集群；

存储器，所述存储器与所述服务器通信连接；

AI平台，所述AI平台与所述服务器通信连接；所述AI平台执行所述指令时实现如权利要求1至7任一项所述的监控训练任务的方法，所述Kubernetes集群用于根据所述AI平台的操作指令进行容器创建以及训练任务执行。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的监控训练任务的方法。