CN115344356B

CN115344356B - 基于容器化实现分布式训练系统及其构建方法

Info

Publication number: CN115344356B
Application number: CN202211269955.8A
Authority: CN
Inventors: 高明明; 赵何; 张志琦
Original assignee: Jiangsu Zhiyun Tiangong Technology Co ltd
Current assignee: Jiangsu Zhiyun Tiangong Technology Co ltd
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2023-01-31
Anticipated expiration: 2042-10-18
Also published as: CN115344356A

Abstract

本发明提供了一种基于容器化实现分布式训练系统及其构建方法，包括：改造原始Kubeflow机器学习开源平台中Notebook镜像；使用Kubeflow机器学习的开源平台Api应用程序编程接口自主研发Notebook Api服务模块，Notebook Api服务模块调用操作Kubeflow机器学习的开源平台中的Notebook服务；研发Notebook Service服务模块调用Notebook Api服务模块、train服务模块；Notebook Servic服务模块和Notebook Api服务模块的日志写入目录。本发明提高算法工程师的模型训练人工成本、时间成本以及解决分布式训练环境部署问题。

Description

基于容器化实现分布式训练系统及其构建方法

技术领域

本发明涉及新一代信息技术领域，具体地，涉及一种基于容器化实现分布式训练系统及其构建方法，适用于智能制造产业中的计算机视觉质检领域。

背景技术

在针对工业质检图像检测模型训练场景下，通常是在工业现场利用算力机器训练模型，往往现场环境不具备快速训练迭代模型的条件，经常会遇到算力机器单台显卡张数不满足，或者显卡张数满足但是分布在多台算力机器设备上需要修改模型训练代码，从而导致需要提高实施工程师技术要求、项目交付时长增加、部署模型需要特定要求服务器，极大的增加企业的人工成本、时间成本、部署成本。

专利文献CN109101342B（申请号：CN201810805446.X）公开了一种分布式作业协调控制方法、装置、计算机设备及存储介质，其中方法可包括：位于参数服务器进程所在容器中的第一job_coordinator进程启动，进行自旋同步，直到作业中的所有参数服务器Pod均为运行状态，为所在容器中的参数服务器进程分配唯一编号，启动所在容器中的参数服务器进程，并控制作业返回状态；位于训练进程所在容器中的第二job_coordinator进程启动，进行自旋同步，直到作业中的所有训练进程Pod均为运行状态，为所在容器中的训练进程分配唯一编号，启动所在容器中的训练进程，建立训练进程与作业中的所有参数服务器进程的链接，并控制作业返回状态。但该发明没有使模型训练从单机单卡改编为多机多卡。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于容器化实现分布式训练系统及其构建方法。

根据本发明提供的一种基于容器化实现分布式训练系统构建方法，包括：

步骤S1：改造原始Kubeflow机器学习的开源平台中Notebook镜像；

步骤S2：使用Kubeflow机器学习的开源平台Api应用程序编程接口自主研发Notebook Api服务模块，Notebook Api服务模块调用操作Kubeflow机器学习的开源平台中的Notebook服务；

步骤S3：研发Notebook Service服务模块调用Notebook Api服务模块、train服务模块；

步骤S4：Notebook Servic服务模块和Notebook Api服务模块的日志写入目录。

优选地，在所述步骤S1中：

Kubeflow框架Notebook服务的镜像改造，包括如下步骤：

步骤S1.1：改造原始Kubeflow机器学习的开源平台中Notebook镜像，集成Tensorboard服务以及指定启动Tensorboard服务时S3挂载盘中需要扫描的日志路径，具体为：

Kubernetes是用于自动部署、扩充和管理容器化应用程序的开源系统，Kubeflow是用于Kubernetes上的机器学习的开源平台，Notebook是Kubeflow机器学习开源平台提供的一种在Kubernetes中运行基于Web的开发环境的方法，TensorBoard服务是提供机器学习实验所需的可视化功能和工具，S3是一种对象存储服务被挂载在Kubernetes中作为存储盘使用；

拉取原始Kubeflow平台中Notebook镜像类别中的原始镜像作为基础镜像，安装Tensorboard服务，并且在Dockerfile文件中CMD命令里追加启动命令，启动时读取S3挂载盘中具体某个namespace_id下Tensorboard目录中的训练日志；

步骤S1.2：Kubeflow平台自定义资源PyTorchJob用于在Kubernetes上运行PyTorch模型分布式训练作业；集成train服务模块，train服务由Python开发，采用Kubernetes Api方式创建Kubeflow平台自定义资源PytrochJob分布式训练任务，具体为：

通过Shell脚本使用Git命令克隆算法模型代码块封装到train服务中，开发Web接口调用Kubernetes Api创建Kubeflow平台自定义资源PytrochJob分布式训练任务，接口包含创建模型训练、中止模型训练、停止模型训练，其中创建模型训练接口中参数包含Master、Worker数量、S3挂载盘中数据样本集目录、S3挂载盘中训练日志输出目录，该服务启动命令追加在Dockerfile文件中CMD命令里，Dockerfile创建自定义notebook镜像上传到私库中提供后续Notebook Service服务创建使用。

优选地，在所述步骤S2中：

所述Notebook Api服务模块的开发包括如下步骤：

步骤S2.1：使用Kubeflow平台Api应用程序编程接口开发Notebook Api服务模块，完成对Kubernetes集群中Notebook Pod的操作，具体为：

使用Kubeflow框架Api应用程序编程接口开发Notebook Api服务模块，其包含Notebook Pod的创建、修改、暂停、删除、获取状态以及挂载PVC、挂载S3中数据样本集目录和Tensorboard服务的日志目录；

步骤S2.2：使用Kubeflow平台Api应用程序编程接口开发创建Notebook Pod、删除Notebook Pod接口时，增加train服务模块、Tensorboard服务的Service、Virtualservice，具体为：

在被调用Notebook Pod创建和删除接口时，分别对Notebook Pod中运行的train服务模块、Tensorboard服务模块分别创建Service、Virtualservice，其中train服务模块Service的targetPort为9999，Tensorboard服务Service的targetPort为6006，两个服务的Service中Port统一为80，其中为控制Kubernetes集群中Virtualservice的数量，Kubernetes集群中所有的Notebook Pod中的train服务模块、Tensorboard服务统一采用同一个Virtualservice，对请求路径进行区分。

优选地，在所述步骤S3中：

所述Notebook Service模块的开发包括如下步骤：

步骤S3.1：创建Notebook默认模版，指定创建默认Notebook时的资源参数，包括：CPU、内存、GPU、PVC、namespace和image，具体为：

在Nacos中创建Notebook默认模版Ymal配置文件，配置默认创建Notebook的资源参数，在Notebook Service服务启动时加载进来，在Web界面创建Notebook时未指定参数时使用默认的Notebook模版；

步骤S3.2：在S3中创建数据样本集目录，算法工程师在界面上传一个或多个样本数据集以供分布式训练使用，在S3中创建Tensorboard服务的日志目录，后续分布式训练任务日志会输出在该目录下，同时增加Kubeflow平台的用户体系认证，使用Kubeflow用户对Notebook进行操作，具体为：

S3是一种对象存储服务，同时也对外提供Client Api接口用于对S3服务进行操作；使用S3Client Api在S3对象存储服务中创建数据样本集目录、Tensorboard服务的日志目录，后续数据样本集上传文件写入到数据样本集目录中，Notebook Pod中Tensorboard服务运行时读取S3中创建的Tensorboard服务的日志目录，创建AuthInterceptor拦截器，每次调用Notebook相关接口、Kubeflow自定义资源服务接口时被AuthInterceptor拦截器拦截，认证属于Kubeflow中的用户通过验证，其中用户的Cookie会被缓存在Redis中并设置过期时间为1个小时；

步骤S3.3：NoteBook Service服务中封装调用NoteBook Api服务、Kubeflow自定义资源服务，具体为：

在Web界面调用NoteBook Service服务时，统一封装调用NoteBook Api服务、train服务，调用NoteBook Api服务时把Notebook模版所需要的参数传递进去，调用train服务时把分布式训练相关参数传递进去。

优选地，在所述步骤S4中：

步骤S4.1：Notebook Servic和Notebook Api服务的日志统一采用Json结构写入到S3目录，统一采集写入到ES使用kibana查看日志信息，具体为：

Notebook Service和Notebook Api服务运行在Kubernetes集群中，服务运行的Pod中挂载着S3挂载盘，当出现日志信息时以Json格式写入当天目录文件夹内的文件中，由Logstash统一采集写入到ES集群中，在出现排查错误情况时使用kibana查看日志信息；

步骤S4.2：Kubeflow自定义资源服务创建的分布式Pytroch Job的日志，输出到NoteBook Pod中运行的Tensorboard服务日志指定挂载的S3目录，具体为：

Pytroch Job分布式训练任务运行时会输出训练指标相关的日志，每个NoteBook中由Kubeflow自定义资源服务启动的Pytroch Job分布式训练任务会统一写入当前Notebook中Tensorboard服务挂载的S3日志目录文件夹下，登录Tensorboard服务的Web界面在Pytroch Job分布式训练任务运行时查看相关指标。

根据本发明提供的一种基于容器化实现分布式训练系统构建系统，包括：

模块M1：改造原始Kubeflow机器学习的开源平台中Notebook镜像；

模块M2：使用Kubeflow机器学习的开源平台Api应用程序编程接口自主研发Notebook Api服务模块，Notebook Api服务模块调用操作Kubeflow机器学习的开源平台中的Notebook服务；

模块M3：研发Notebook Service服务模块调用Notebook Api服务模块、train服务模块；

模块M4：Notebook Servic服务模块和Notebook Api服务模块的日志写入目录。

优选地，在所述模块M1中：

Kubeflow框架Notebook服务的镜像改造，包括如下步骤：

模块M1.1：改造原始Kubeflow机器学习的开源平台中Notebook镜像，集成Tensorboard服务以及指定启动Tensorboard服务时S3挂载盘中需要扫描的日志路径，具体为：

模块M1.2：Kubeflow平台自定义资源PyTorchJob用于在Kubernetes上运行PyTorch模型分布式训练作业；集成train服务模块，train服务由Python开发，采用Kubernetes Api方式创建Kubeflow平台自定义资源PytrochJob分布式训练任务，具体为：

优选地，在所述模块M2中：

所述Notebook Api服务模块的开发包括如下步骤：

模块M2.1：使用Kubeflow平台Api应用程序编程接口开发Notebook Api服务模块，完成对Kubernetes集群中Notebook Pod的操作，具体为：

模块M2.2：使用Kubeflow平台Api应用程序编程接口开发创建Notebook Pod、删除Notebook Pod接口时，增加train服务模块、Tensorboard服务的Service、Virtualservice，具体为：

优选地，在所述模块M3中：

所述Notebook Service模块的开发包括如下步骤：

模块M3.1：创建Notebook默认模版，指定创建默认Notebook时的资源参数，包括：CPU、内存、GPU、PVC、namespace和image，具体为：

模块M3.2：在S3中创建数据样本集目录，算法工程师在界面上传一个或多个样本数据集以供分布式训练使用，在S3中创建Tensorboard服务的日志目录，后续分布式训练任务日志会输出在该目录下，同时增加Kubeflow平台的用户体系认证，使用Kubeflow用户对Notebook进行操作，具体为：

模块M3.3：NoteBook Service服务中封装调用NoteBook Api服务、Kubeflow自定义资源服务，具体为：

优选地，在所述模块M4中：

模块M4.1：Notebook Servic和Notebook Api服务的日志统一采用Json结构写入到S3目录，统一采集写入到ES使用kibana查看日志信息，具体为：

模块M4.2：Kubeflow自定义资源服务创建的分布式Pytroch Job的日志，输出到NoteBook Pod中运行的Tensorboard服务日志指定挂载的S3目录，具体为：

与现有技术相比，本发明具有如下的有益效果：

1、本发明提高算法工程师的模型训练人工成本、时间成本以及解决分布式训练环境部署问题；

2、本发明的模型训练从单机单卡改编为多机多卡，节约服务器资源成本并且提高数据样本吞吐量；

3、本发明提高模型开发效率，算法工程师仅需要专注于算法模型开发，训练以及运行环境资源在界面操作即可完成。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明拓扑图；

图2为notebook处理操作图；

图3为分布式训练相关操作图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

本发明实现基于容器化实现分布式训练整体流程，提供界面化方式创建分布式训练任务、数据集管理、训练日志在线查看等服务，提高模型训练迭代效率、模型训练时数据样本吞吐量大小以及服务器内存、CPU、显卡等资源的利用率，解决企业中算法工程师需要繁重的配置以及部署分布式环境问题，使其专注于开发模型算法提高工作效率。

根据本发明提供的一种基于容器化实现分布式训练系统构建方法，如图1-图3所示，包括：

步骤S1：改造原始Kubeflow机器学习的开源平台中Notebook镜像；

具体地，在所述步骤S1中：

Kubeflow框架Notebook服务的镜像改造，包括如下步骤：

具体地，在所述步骤S2中：

所述Notebook Api服务模块的开发包括如下步骤：

具体地，在所述步骤S3中：

所述Notebook Service模块的开发包括如下步骤：

具体地，在所述步骤S4中：

模块M1：改造原始Kubeflow机器学习的开源平台中Notebook镜像；

具体地，在所述模块M1中：

Kubeflow框架Notebook服务的镜像改造，包括如下步骤：

具体地，在所述模块M2中：

所述Notebook Api服务模块的开发包括如下步骤：

具体地，在所述模块M3中：

所述Notebook Service模块的开发包括如下步骤：

具体地，在所述模块M4中：

实施例2：

实施例2为实施例1的优选例，以更为具体地对本发明进行说明。

一种基于容器化实现分布式训练系统及介质。包括Kubeflow框架Notebook服务的镜像改造、Notebook Service模块开发、Notebook Api模块开发、统一日志收集模块开发。

Notebook Service模块会调用 Notebook Api模块，也会直接请求调用具体的某个Notebook服务，Notebook Api会调用操作（包括创建、删除、修改、查询）Notebook服务，Notebook原生镜像中不包含 Tensorboard、集成Kubeflow自定义资源服务等，需要对镜像改造，所以需要对Notebook原生镜像改造成符合要求的镜像，这一系列操作都是相互依赖的。

所述Kubeflow框架Notebook服务的镜像改造，包括如下步骤：

步骤A：改造原始Kubeflow框架中Notebook镜像，集成Tensorboard服务以及指定启动Tensorboard服务时S3挂载盘中需要扫描的日志路径，具体为：

拉取原始Kubeflow框架中Notebook镜像类别中的jupyter-pytorch-cuda镜像作为基础镜像，安装Tensorboard服务，并且在Dockerfile文件中CMD命令里追加tensorboard--logdir/data/namespace_id/tensorboard启动命令，上述命令意为启动时读取S3挂载盘中具体某个namespace_id下Tensorboard目录中的训练日志；

步骤B：集成Kubeflow自定义资源服务，该服务由Python开发，采用KubernetesApi方式创建Kubeflow自定义资源PytrochJob分布式训练任务，具体为：

通过Shell脚本使用Git命令克隆算法模型代码块封装到Kubeflow自定义资源服务中，开发Web接口调用Kubernetes Api创建Kubeflow自定义资源PytrochJob分布式训练任务，接口包含创建模型训练、中止模型训练、停止模型训练等，其中创建模型训练接口中参数包含Master、Worker数量、S3挂载盘中数据样本集目录、S3挂载盘中训练日志输出目录等，该服务启动命令uwsgi--ini/data/train_Api/uwsgi.ini同样追加在Dockerfile文件中CMD命令里，Dockerfile创建镜像jupyter-notebook-pytorch-cuda上传到私库中提供后续Notebook Service服务创建使用。

所述Notebook Service模块开发，包括如下步骤：

步骤A：创建Notebook默认模版，指定创建默认Notebook时的资源参数，如：

CPU、内存、GPU、PVC、namespace、image等，具体为：

步骤B：在S3中创建数据样本集目录，算法工程师在界面可上传一个或多个样本数据集以供分布式训练使用，在S3中创建Tensorboard服务的日志目录，后续分布式训练任务日志会输出在该目录下，同时增加Kubeflow的用户体系认证，使用Kubeflow用户对Notebook进行操作，具体为：

使用S3Client Api在S3对象存储服务中创建数据样本集目录、Tensorboard服务的日志目录，后续数据样本集上传文件会写入到数据样本集目录中，Notebook Pod中Tensorboard服务运行时会读取S3中创建的Tensorboard服务的日志目录，创建AuthInterceptor拦截器，每次调用Notebook相关接口、Kubeflow自定义资源服务接口时会被AuthInterceptor拦截器拦截，认证属于Kubeflow中的用户才会通过验证，其中用户的Cookie会被缓存在Redis中并设置过期时间为1个小时；

步骤C：NoteBook Service服务中封装调用NoteBook Api服务、Kubeflow自定义资源服务，具体为：

在Web界面化调用NoteBook Service服务时，统一封装调用NoteBook Api服务、Kubeflow自定义资源服务，使其调用关系简单化，调用NoteBook Api服务时会把Notebook模版所需要的参数传递进去，调用Kubeflow自定义资源服务时会把分布式训练相关参数传递进去；

所述Notebook Api模块开发，包括如下步骤：

步骤A：使用Kubeflow框架Api封装创建Notebook Api接口，完成对Kubernetes集群中Notebook Pod的操作，具体为：

使用Kubeflow框架Api封装创建Notebook Api接口，其接口包含Notebook Pod的创建、修改、暂停、删除、获取状态以及挂载PVC、挂载S3中数据样本集目录和Tensorboard服务的日志目录等；

步骤B：使用Kubernetes Api封装创建和删除Notebook Pod时增加创建Kubeflow自定义资源服务、Tensorboard服务的Service、Virtualservice，具体为：

在被调用Notebook Pod创建和删除接口时，会对Notebook Pod中运行的Kubeflow自定义资源服务、Tensorboard服务分别创建Service，其中targetPort分别为9999、6006，port统一为80，其中为控制Kubernetes集群中Virtualservice的数量，Notebook Pod中的Kubeflow自定义资源服务、Tensorboard服务统一采用同一个Virtualservice，请求路径分别采用/{name}-pretreatment/、/{name}-tensorboard/区分；

所述统一日志收集模块开发，包括如下步骤：

步骤A：Notebook Servic和Notebook Api服务的日志统一采用Json结构写入到S3目录，统一采集写入到ES使用kibana查看日志信息，具体为：

Notebook Service和Notebook Api服务均运行在Kubernetes集群中，服务运行的Pod中均挂载着S3挂载盘，当出现日志信息时会以Json格式写入当天目录文件夹内notebook_service.log、notebook_Api.log文件中，由Logstash统一采集写入到ES集群中，在出现排查错误情况时可使用kibana查看日志信息；

步骤B：Kubeflow自定义资源服务创建的分布式Pytroch Job的日志，输出到NoteBook Pod中运行的Tensorboard服务日志指定挂载的S3目录，具体为：

Pytroch Job分布式训练任务运行时会输出训练指标相关的日志，每个NoteBook中由Kubeflow自定义资源服务启动的Pytroch Job分布式训练任务会统一写入当前Notebook中Tensorboard服务挂载的S3日志目录文件夹下，登录Tensorboard服务的Web界面即可在Pytroch Job分布式训练任务运行时查看相关指标。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于容器化实现分布式训练系统构建方法，其特征在于，包括：

步骤S1：改造原始Kubeflow机器学习的开源平台中Notebook镜像；

步骤S2：使用Kubeflow机器学习的开源平台Api应用程序编程接口自主研发NotebookApi服务模块，Notebook Api服务模块调用操作Kubeflow机器学习的开源平台中的Notebook服务；

步骤S4：Notebook Servic服务模块和Notebook Api服务模块的日志写入目录；

Kubeflow框架Notebook服务的镜像改造，包括如下步骤：

步骤S1.2：Kubeflow平台自定义资源PyTorchJob用于在Kubernetes上运行PyTorch模型分布式训练作业；集成train服务模块，train服务由Python开发，采用Kubernetes Api方式创建Kubeflow平台自定义资源内的PytrochJob分布式训练任务，具体为：

通过Shell脚本使用Git命令克隆算法模型代码块封装到train服务中，开发Web接口调用Kubernetes Api创建Kubeflow平台自定义资源内的PytrochJob分布式训练任务，接口包含创建模型训练、中止模型训练、停止模型训练，其中创建模型训练接口中参数包含Master、Worker数量、S3挂载盘中数据样本集目录、S3挂载盘中训练日志输出目录，服务启动命令uwsgi--ini/data/train_Api/uwsgi.ini追加在Dockerfile文件中CMD命令里，Dockerfile创建自定义notebook镜像上传到私库中提供后续Notebook Service服务创建使用；

在所述步骤S2中：

所述Notebook Api服务模块的开发包括如下步骤：

在被调用Notebook Pod创建和删除接口时，分别对Notebook Pod中运行的train服务模块、Tensorboard服务模块分别创建Service、Virtualservice，其中train服务模块Service的targetPort为9999，Tensorboard服务Service的targetPort为6006，两个服务的Service中Port统一为80，其中为控制Kubernetes集群中Virtualservice的数量，Kubernetes集群中所有的Notebook Pod中的train服务模块、Tensorboard服务统一采用同一个Virtualservice，对请求路径进行区分；

在所述步骤S3中：

所述Notebook Service模块的开发包括如下步骤：

2.根据权利要求1所述的基于容器化实现分布式训练系统构建方法，其特征在于，在所述步骤S4中：

Pytroch Job分布式训练任务运行时会输出训练指标相关的日志，每个NoteBook中由Kubeflow自定义资源服务启动的Pytroch Job分布式训练任务会统一写入当前Notebook中Tensorboard服务挂载的S3日志目录文件夹下，登录Tensorboard服务的Web界面在PytrochJob分布式训练任务运行时查看相关指标。

3.一种基于容器化实现分布式训练系统构建系统，其特征在于，包括：

模块M1：改造原始Kubeflow机器学习的开源平台中Notebook镜像；

模块M2：使用Kubeflow机器学习的开源平台Api应用程序编程接口自主研发NotebookApi服务模块，Notebook Api服务模块调用操作Kubeflow机器学习的开源平台中的Notebook服务；

模块M4：Notebook Servic服务模块和Notebook Api服务模块的日志写入目录；

在所述模块M1中：

Kubeflow框架Notebook服务的镜像改造，包括如下步骤：

模块M1.2：Kubeflow平台自定义资源PyTorchJob用于在Kubernetes上运行PyTorch模型分布式训练作业；集成train服务模块，train服务由Python开发，采用Kubernetes Api方式创建Kubeflow平台自定义资源内的PytrochJob分布式训练任务，具体为：

在所述模块M2中：

所述Notebook Api服务模块的开发包括如下步骤：

在所述模块M3中：

所述Notebook Service模块的开发包括如下步骤：

4.根据权利要求3所述的基于容器化实现分布式训练系统构建系统，其特征在于，在所述模块M4中：