CN112379869A

CN112379869A - 一种标准化开发训练平台

Info

Publication number: CN112379869A
Application number: CN202011271521.2A
Authority: CN
Inventors: 方燕琼; 涂小涛; 尤毅; 伍晓泉; 李晓枫; 胡春潮; 郑培文; 陈皓
Original assignee: Guangdong Electric Power Science Research Institute Energy Technology Co Ltd
Current assignee: Guangdong Electric Power Science Research Institute Energy Technology Co Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-02-19

Abstract

本发明公开了一种标准化开发训练平台，物理资源层包括CPU、GPU、存储、网络设备和安全防护设备；调度管理层包括集群管理系统、资源管理系统、任务调度系统和用户管理系统；训练环境层包括各主流学习框架；业务应用层包括数据处理模块、数据标注模块、模型训练模块和模型发布模块，模型发布模块用于判断待发布模型是否适配终端的硬件，对不适配的待发布模型进行模型压缩或转换，直至压缩或转换后的待发布模型适配终端的硬件，再将其发布到终端，可对算法模型进行全生命周期的标准化管理，解决了现有技术中未考虑模型下发时与硬件的适配工作，每个模型单独人工操作耗时多，适配过程工作量大，存在模型部署发布可用性低、灵活性低的技术问题。

Description

一种标准化开发训练平台

技术领域

本发明涉及计算机技术领域，尤其涉及一种标准化开发训练平台。

背景技术

目前公开的机器学习平台，主要用于搭建各种数据模型，同时通过大数据集群提取源数据；并通过源数据验证数据模型以及建立良好的模型评估方法，构建优良的数据模型和数据模型评估方法，主要是为了解决现有的数据模型构建复杂、验证工作量大且不能进行良好的模型验证的问题。未考虑模型下发时与硬件的适配工作，每个模型单独人工操作耗时多，适配过程工作量大，存在模型部署发布可用性低、灵活性低的问题。

发明内容

本发明提供了一种标准化开发训练平台，用于对算法模型进行全生命周期的标准化管理，以解决现有技术中未考虑模型下发时与硬件的适配工作，每个模型单独人工操作耗时多，适配过程工作量大，存在模型部署发布可用性低、灵活性低的技术问题。

有鉴于此，本发明第一方面提供了一种标准化开发训练平台，包括：

物理资源层、调度管理层、训练环境层和业务应用层；

所述物理资源层包括CPU、GPU、存储、网络设备和安全防护设备；

所述调度管理层包括集群管理系统、资源管理系统、任务调度系统和用户管理系统；

所述训练环境层包括主流学习框架TensorFlow、PyTorch、Caffe、scikit-learn和/或XGBoost；

所述业务应用层包括数据处理模块、数据标注模块、模型训练模块和模型发布模块；

所述模型发布模块，用于判断待发布模型是否适配终端的硬件，若是，则将所述待发布模型发布到所述终端；若否，则对所述待发布模型进行模型压缩或模型转换，直至压缩或转换后的所述待发布模型适配所述终端的硬件。

可选的，所述数据标注模块包括：

标注子模块，用于在接收到标注任务后，对待标注数据集进行类别标注，得到已标注数据集；

审核子模块，用于根据预置规则对所述已标注数据集进行命名和审核；

存储子模块，用于将审核通过的所述已标注数据集根据所述命名存储到所述标准化开发训练平台的指定路径。

可选的，所述标注子模块具体用于：

在接收到标注任务后，将待标注数据集输入到自动标注模型进行类别标注，输出已标注数据集，其中，所述自动标注模型由人工标注的数据集训练得到。

可选的，所述模型训练模块用于：

接收到训练任务后，根据所述训练任务中的配置参数进行模型训练。

可选的，所述模型发布模块还用于：

将训练好的模型发布到模型仓库。

可选的，所述模型发布模块还用于：

对模型进行性能评估，所述性能评估指标包括准确率、召回率或mAP值。

可选的，所述模型发布模块具体用于：

判断待发布模型是否适配终端的硬件，若是，则将所述待发布模型加密后发布到所述终端；若否，则对所述待发布模型进行模型压缩或模型转换，直至压缩或转换后的所述待发布模型适配所述终端的硬件。

可选的，所述任务调度系统用于：

在接收到训练任务时，分配资源；

将所述训练任务加入任务队列，使得所述资源空闲时，执行所述训练任务。

可选的，还包括：可视化监控模块；

所述可视化监控模块，用于实时监控所述标准化开发训练平台的计算资源消耗情况，并提供CPU和/或GPU计算节点的监控界面。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供了一种标准化开发训练平台，包括：物理资源层、调度管理层、训练环境层和业务应用层；物理资源层包括CPU、GPU、存储、网络设备和安全防护设备；调度管理层包括集群管理系统、资源管理系统、任务调度系统和用户管理系统；训练环境层包括主流学习框架TensorFlow、PyTorch、Caffe、scikit-learn和/或XGBoost；业务应用层包括数据处理模块、数据标注模块、模型训练模块和模型发布模块；模型发布模块，用于判断待发布模型是否适配终端的硬件，若是，则将待发布模型发布到终端；若否，则对待发布模型进行模型压缩或模型转换，直至压缩或转换后的待发布模型适配终端的硬件。

本发明中，构建一种包含物理资源层、调度管理层、训练环境层和业务应用层的标准化开发训练平台，通过训练环境层提供各种主流学习框架以支撑业务应用层中的数据处理模块、数据标注模块、模型训练模块和模型发布模块，通过业务应用层中的各模块为用户提供数据处理、数据标注、模型训练以及模型发布等功能，可以通过标准化开发训练平台发布的模型进行边缘侧视频图像识别，实现算法模型进行全生命周期的标准化管理；并且模型发布模块在发布待分布模型时，会判断其是否适配终端的硬件，对于不适配的待发布模型进行模型压缩或转换，得到适配终端硬件的待发布模型，避免了人工单独操作模型适配问题，从而解决了现有技术中未考虑模型下发时与硬件的适配工作，每个模型单独人工操作耗时多，适配过程工作量大，存在模型部署发布可用性低、灵活性低的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种标准化开发训练平台的一个结构示意图；

图2为本发明实施例提供的一种数据标注的一个流程示意图；

图3为本发明实施例提供的一种半自动辅助标注数据的一个流程示意图；

图4为本发明实施例提供的一种模型训练的一个流程示意图；

图5为本发明实施例提供的一种模型发布的一个流程示意图；

图6为本发明实施例提供的基于标准化开发训练平台的业务流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解，请参阅图1，本发明提供的一种标准化开发训练平台的一个实施例，包括：

物理资源层、调度管理层、训练环境层和业务应用层；

物理资源层包括CPU、GPU、存储、网络设备和安全防护设备；调度管理层包括集群管理系统、资源管理系统、任务调度系统和用户管理系统；训练环境层包括主流学习框架TensorFlow、PyTorch、Caffe、scikit-learn和/或XGBoost；业务应用层包括数据处理模块、数据标注模块、模型训练模块和模型发布模块；模型发布模块，用于判断待发布模型是否适配终端的硬件，若是，则将待发布模型发布到终端；若否，则对待发布模型进行模型压缩或模型转换，直至压缩或转换后的待发布模型适配终端的硬件。

物理资源层包括计算硬件(CPU、GPU)、存储、网络设备和安全防护设备。通过带有GPU的服务器组成服务器阵列，将普通服务器和GPU资源分离，提高训练任务的数据交换能力和执行效率。

调度管理层基于Kubernetes和Docker开发，包括集群管理系统、资源管理系统、任务调度系统和用户管理系统。服务器阵列通过Kubernetes和Docker进行集群管理、资源监控和任务编排，解决环境不一致的问题和资源池化的问题。任务调度基于Kubernetes相同，集群中的任务以Docker容器的方式运行在GPU计算节点中。

(1)进一步，资源调度支持任务级别的资源调度方式，用户仅需提供任务执行的代码、任务所需资源规模和执行命令，即可完成训练任务的提交和计算资源调度(CPU、GPU、内存等)，通过硬件资源池化、两级资源配额管理、多种任务全局排队的方式完成资源的精细化调度，提高资源的利用率。

a、硬件资源池化：所有设备的运算能力都被放到一个资源池内，再基于Kubernetes进行统一资源分配。资源的池化使得用户不再关心计算资源的物理位置和存在形式，从而更加灵活地对资源进行配置和资源生命周期的控制。

b、两级资源配额管理：通过资源限额来确保不同的Pod只能占用指令的资源，为Pod划分等级，确保不同等级的Pod有不同的服务质量。在创建Pod时可以指定优先级，Pod的优先级不同，其配额限制也不同。其中，Pod由一个或一个以上的容器组成的，且具有共享存储/网络/UTS/PID的能力，以及运行容器的规范。

c、多种任务全局排队：训练任务提交进入任务队列后，按照任务的优先级(资源租户等级、任务等级等)进行队列管理，分配资源启动训练，在资源不足时，依照队列优先级的先后顺序进行训练。

(2)资源管理是由系统统一完成计算节点资源的管理，保证多用户间使用资源的相互独立，解决资源冲突问题。

a、细粒度资源管理：平台支持单张GPU卡切分成多个vGPU卡进行分配，用户可以在建模或者预测的时候按需选择所需要的vGPU资源，大大提升集群整体资源利用率和多用户的并发能力。

b、自动隔离故障单元：支持计算单元在线增加、更换等，上层任务无感知。

c、执行环境隔离：支持在Docker容器中运行TensorFlow、Caffe等，实现执行环境的个性化与隔离。

(3)分布式存储内容管理：包括原始文件数据、数据集的上传、下载、删除、版本管理等。支持在程序中读写HDFS，程序的训练数据和训练结果都可以指定为HDFS路径

(4)分布式训练管理：平台支持单卡和多卡的模型训练任务，海量数据场景下，为突破单机瓶颈，利用多机能力进行模型训练，平台支持多种框架类型的多机多卡任务，任务并行度可以按需指定。

(5)任务信息管理：提供统一的任务管理系统，统一收集任务的运行情况及运行历史，并为用户提供基于B/S架构(应用服务器请求数据库服务器将数据传输到客户端做训练可视化)的集群TensorBoard统一服务，支持在TensorBoard中查看已运行的任务状态，动态展示每一个任务的当前状态。

进一步，本发明实施例中的标准化开发训练平台还包括：可视化监控模块；

可视化监控模块，用于实时监控标准化开发训练平台的计算资源消耗情况，并提供CPU和/或GPU计算节点的监控界面。

可视化监控模块支持对平台计算资源消耗情况进行实时监控，提供CPU和/或GPU计算节点统一监控的Web UI界面，登陆后访问内网站点，即可查看平台运行时的CPU使用率、GPU使用率、显存使用情况等与GPU计算节点密切相关的参数，以及网络负载、存储资源消耗等。

a、节点资源监控包括：CPU/GPU/Memory平均使用率、网络平均IO、HDFS读写IO、磁盘监控、节点目录使用率。

b、模型训练时，对各类指标进行监控，包括：AUC、准确率、F值、ROC曲线图、mAP等。

训练环境层是以Docker的形式提供的服务，包括主流学习框架TensorFlow、PyTorch、Caffe、scikit-learn和/或XGBoost等机器学习、深度学习环境，同时集成JupyterHub等交互式代码调试笔记本和MPI并行编程接口。系统运行环境和学习环境通过Docker仓库进行版本的迭代管理。

业务应用层包括数据处理模块、数据标注模块、模型训练模块和模型发布模块。

(1)数据处理模块用于管理算法训练所需的样本数据，用户可对结构化数据及非结构化数据进行管理、搜索、修改、查看及批量导入导出；可对数据集进行分割、分类、增删改查，可将数据集分解为训练集、测试集、验证集等子集。数据通过应用服务器连接数据库服务器进行管理，采用B/S架构，通过统一的API接口，部署安全访问策略，针对用户设置数据访问权限，如超级管理员、普通用户与临时用户。

(2)进一步，数据标注模块包括：标注子模块，用于在接收到标注任务后，对待标注数据集进行类别标注，得到已标注数据集；审核子模块，用于根据预置规则对已标注数据集进行命名和审核；存储子模块，用于将审核通过的已标注数据集根据命名存储到标准化开发训练平台的指定路径。

具体的，在接收到标注任务后，数据标注子模块用于标注算法训练所需的样本数据集，即待标注数据集，提供给项目内训练任务、开发环境使用。用户可对数据按分类、场景进行标注；除电力现场安全监管所必需的安全帽、工作服、安全带等类别，用户亦可以自定义标注的类别。审核子模块对已标注数据集进行规范命名及审核，数据完成标注及审核后，可将数据保存至指定路径。已标注数据可保存的格式为json、xml、txt等，提供数据集格式转换工具，转换为tfrecord、ldmb等格式。

进一步，标注子模块具体用于：在接收到标注任务后，将待标注数据集输入到自动标注模型进行类别标注，输出已标注数据集，其中，自动标注模型由人工标注的数据集训练得到。

标注可由人工标注或半自动辅助标注，数据标注的具体流程可以参考图2。其中半自动辅助标注通过对标注任务进行接口化的预推断处理、人工辅助校验，可大大提高标注的效率，半自动辅助标注过程可以参考图3。获取人工标注的少量样本，形成数据集A，以及获取大量待标注样本，形成数据集B；通过数据集A对自动标注模型进行训练，采用训练好的自动标注模型对数据集B中的样本进行类别标注，直至数据集B中的样本全部标记完成，可以提交训练计算，使得模型训练模块基于标注好的数据进行模型训练。

进一步，模型训练模块用于：接收到训练任务后，根据训练任务中的配置参数进行模型训练。

模型训练模块基于各个机器学习、深度学习训练环境，通过预先编写好的训练脚本，配置好参数后挂起训练。整个训练流程由后台搭建的管道(pipeline)自动完成，围绕数据处理、数据标注、训练、模型管理流程展开模型生产。

模型训练通过Docker预置TensorFlow、PyTorch、Caffe、scikit-learn、XGBoost等学习环境。利用任务调度系统，用户可以向集群提交训练任务，任务调度系统将根据用户的配额为用户分配资源，创建用户指定的环境，并将训练任务加入任务队列，待资源空闲时，运行训练任务。用户可一键提交代码，生成分布式任务，极大减少开发成本和资源占用。

模型训练流程可以参考图4，可以从模型仓库中选择要训练的模型，并判断是否有已标注数据集，若是，则进行训练资源调度，进行数据预处理、训练预处理并配置训练参数，根据配置的训练参数执行训练任务，得到新模型并保存该新模型；若否，则进行数据标注，再通过已标注数据集进行模型训练。

其中，模型仓库预置了众多预训练模型，基于这些模型，可以采用少量数据、快速开发出适合自身业务的模型，节省大量数据采集成本和模型迭代成本。模型仓库提供了包括多框架下丰富的模型网络架构和预训练模型，以及提供了包括SSD、EfficientDet、CenterNet、ResNet、yolo、facerecognize等一系列在内的SOTA目标检测网络及预训练模型，其还提供可视化管理界面，包含模型的名称、版本、创建时间、更新记录以及当前状态。模型训练模块提供python自定义组件来进行连接、采样、切分、合并、异常值填补和过滤等数据预处理及数据集的裁剪、变化、统计等数据预处理。模型训练模块内置图像增强、图像转换等工具进行训练预处理。用户可以对模型训练模块进行个性化配置，在创建训练任务的过程中，除了内置的一系列模型网络架构和配置学习参数，还可以进行自定义网络架构搭建、超参数配置和相应的推断框架(tensorRT、NCNN)。

模型发布模块，用于将训练好的模型发布到终端。

进一步，模型发布模块，还用于将训练好的模型发布到模型仓库。

模型发布模块对模型生命周期进行标准化管理，一键发布模型到模型仓库。模型仓库将保存不同版本的迭代模型，进行模型的版本管理(性能比对、版本回溯等)，通过模型仓库可以快速保存模型并应用上线，提升工作效率，保证模型服务质量。

进一步，模型发布模块还用于：对模型进行性能评估，性能评估指标包括准确率、召回率或mAP值。

模型发布模块可以对模型进行性能评估，包括在测试集上的准确率、召回率或mAP值等评估，以及参数分析(模型尺寸、浮点型操作次数)和预测速度的评估比对，并支持模型版本间的效果对比。

进一步，模型发布模块具体用于：判断待发布模型是否适配终端的硬件，若是，则将待发布模型加密后发布到终端；若否，则对待发布模型进行模型压缩或模型转换，直至压缩或转换后的待发布模型适配终端的硬件。

模型发布到终端时刻进行模型加密。模型部署到固件升级(模型升级)的服务端，可配置防火墙安全访问策略，以任务为单位进行模型分发。边缘终端通过加密的TCP协议进行固件升级(模型升级)，能够快速分发模型，形成数据闭环。其中，防火墙策略采取接口包过滤(静态IP分配、IP过滤、黑名单等)、域间安全策略(接口访问次数、频率限制等)和日志记录。

平台除了支持Tensorflow(Tensorflow Lite)、Torch、Caffe之外，还集成了预测加速引擎TensorRT、NCNN，并集成模型转换和压缩等工具(量化、裁剪)，并可对压缩前后的模型做参数分析(模型尺寸、浮点型操作次数)、性能评估对比。支持主流框架所支持的不同的硬件虚拟环境，评测其在不同虚拟环境下资源消耗、进度、预测速度等量化指标，提供推荐的硬件配置。平台将性能优异且计算量庞大的学习框架快速部署到不同的硬件架构之上，并且能够保持性能相对高效。其中，模型发布到终端的具体流程可以参考图5，在训练好的模型中选择好待发布模型后，可以对其进行性能评估，并判断是是否适配将发布的终端硬件，若是，则对该待发布模型进行加密后发布到该终端，若否，则对该模型进行模型压缩或模型转换，直至该模型适配该终端硬件。

平台的整个业务使用流程可以参考图6，标准化开发训练平台接入用户访问后，通过防火墙判断其是否符合安全策略，若否，则拒绝接入该用户访问，若是，则提醒用户登录，验证该用户权限，其是否具备该平台的访问权限，若否，则拒绝访问，若是，则允许访问，当访问应用服务器时，进一步判断是否具备数据访问权限，若是，则以统一的API接口获取数据，进一步对该数据进行数据标注、模型训练以及将训练好的模型发布到边缘终端。

本发明实施例中，构建一种包含物理资源层、调度管理层、训练环境层和业务应用层的标准化开发训练平台，通过训练环境层提供各种主流学习框架以支撑业务应用层中的数据处理模块、数据标注模块、模型训练模块和模型发布模块，通过业务应用层中的各模块为用户提供数据处理、数据标注、模型训练以及模型发布等功能，可以通过标准化开发训练平台发布的模型进行边缘侧视频图像识别，实现算法模型进行全生命周期的标准化管理；并且模型发布模块在发布待分布模型时，会判断其是否适配终端的硬件，对于不适配的待发布模型进行模型压缩或转换，得到适配终端硬件的待发布模型，避免了人工单独操作模型适配问题，从而解决了现有技术中未考虑模型下发时与硬件的适配工作，每个模型单独人工操作耗时多，适配过程工作量大，存在模型部署发布可用性低、灵活性低的技术问题。

与现有技术相比，本发明中的标准化开发训练平台具有以下优点：

1、基于容器进行软硬件模块化设计，各模块间互相独立，完全解耦，具备较好的稳定性和可扩展性；

2、考虑了数据安全防护，包括用户权限、数据访问权限、防火墙访问策略、资源隔离、模型加密等，确保数据的安全性、可靠性和隔离性；

3、考虑了模型下发时与硬件的适配问题，在平台侧搭建下发硬件端的虚拟环境，在平台侧完成模型的压缩与评测，有助于模型的快速部署和分发，确保模型的可用性和灵活性。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种标准化开发训练平台，其特征在于，包括：物理资源层、调度管理层、训练环境层和业务应用层；

2.根据权利要求1所述的标准化开发训练平台，其特征在于，所述数据标注模块包括：

3.根据权利要求2所述的标准化开发训练平台，其特征在于，所述标注子模块具体用于：

4.根据权利要求1所述的标准化开发训练平台，其特征在于，所述模型训练模块用于：

5.根据权利要求4所述的标准化开发训练平台，其特征在于，所述模型发布模块还用于：

将训练好的模型发布到模型仓库。

6.根据权利要求5所述的标准化开发训练平台，其特征在于，所述模型发布模块还用于：

7.根据权利要求1所述的标准化开发训练平台，其特征在于，所述模型发布模块具体用于：

8.根据权利要求1所述的标准化开发训练平台，其特征在于，所述任务调度系统用于：

在接收到训练任务时，分配资源；

9.根据权利要求1所述的标准化开发训练平台，其特征在于，还包括：可视化监控模块；