CN212541377U

CN212541377U - 一种基于容器化管理的电力ai训练平台

Info

Publication number: CN212541377U
Application number: CN202021707910.0U
Authority: CN
Inventors: 张可; 茆骥; 黄文礼; 康伟东; 杨建旭; 童旸; 王柳; 汪金礼
Original assignee: Anhui Nanrui Jiyuan Power Grid Technology Co ltd
Current assignee: Anhui Nanrui Jiyuan Power Grid Technology Co ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2021-02-12
Anticipated expiration: 2030-08-17

Abstract

本实用新型公开的属于人工智能技术领域，具体为一种基于容器化管理的电力AI训练平台，包括硬件资源层、操作系统层、通信层、数据库层、算法层和任务层，所述硬件资源层包含GPU资源池和存储资源池，所述通信层采用RabbitMQ多语言通信，该种基于容器化管理的电力AI训练平台，以容器化技术为基础，通过Web界面访问的方式，实现了电力AI训练平台的定制化，平台可以满足多种业务场景的需求，利用强大的硬件资源配置实现了电力场景下算法的快速训练及应用部署，能够直观显示模型优化过程及性能指标，有效管理算法模型，具备迭代训练触发机制，能够做到快速迭代模型，支撑现场算法的动态更新。

Description

一种基于容器化管理的电力AI训练平台

技术领域

本实用新型涉及人工智能技术领域，具体为一种基于容器化管理的电力AI训练平台。

背景技术

近年来，随着计算机技术的进步，机器学习特别是深度学习获得了极大的发展，依然已经成为当前最火热的研究领域，在包括电力行业在内的很多其他领域都得到很大的推广和应用。

深度学习的研究需要更大的数据集、更高的计算量，更久的运算时间，这个时候单台的计算机资源（CPU、GPU、内存、磁盘等）和性能很容易陷入瓶颈，无法满足深度学习任务的执行，目前GPU集群的训练方式是当前解决多卡多机AI算法训练的核心技术。

以Docker为代表的容器化技术日渐成熟，使用镜像创建一个虚拟化的运行环境，运行环境中包含了所需要的所有依赖，其轻量级，易管理的特点受到了广泛的欢迎，因此使用Docker来部署AI训练平台的相关组件，来组合形成最终的AI训练平台可以减少很多工作，同时对平台的鲁棒性也提供了很大的支撑。本实用新型以容器化技术为基础，通过Web界面访问的方式，实现电力AI训练平台的定制化。

目前市面上的AI训练平台，通常只能使用平台内置的模型进行训练与预测，无法让用户自己开发算法，无法支持可定制化的模型训练与预测，不能满足多种业务场景的需求。同时模型的部署应用与平台自带的产品绑定，无法做到灵活使用，另外缺乏对训练模型管理，无法直观显示模型优化过程及性能指标以及缺乏迭代训练触发机制，因此难以做到快速迭代模型，支撑现场算法的动态更新。

实用新型内容

本实用新型的目的在于提供一种基于容器化管理的电力AI训练平台，以解决上述背景技术中提出的现有的目前市面上的AI训练平台，通常只能使用平台内置的模型进行训练与预测，无法让用户自己开发算法，无法支持可定制化的模型训练与预测，不能满足多种业务场景的需求。同时模型的部署应用与平台自带的产品绑定，无法做到灵活使用，另外缺乏对训练模型管理，无法直观显示模型优化过程及性能指标以及缺乏迭代训练触发机制，因此难以做到快速迭代模型，支撑现场算法的动态更新的问题。

为实现上述目的，本实用新型提供如下技术方案：一种基于容器化管理的电力AI训练平台，包括硬件资源层、操作系统层、通信层、数据库层、算法层和任务层，所述硬件资源层包含GPU资源池和存储资源池，所述通信层采用RabbitMQ多语言通信，所述数据库层依据训练平台算法层和任务层设计了相应的数据库表结构及其关联关系，所述算法层基于Tensorflow、Pytorch、Caffe深度学习框架，预置多种算法模型镜像文件，所述任务层包括图像分类、目标检测和图像分割三个深度学习领域，所述数据库层具备数据集管理及数据标定功能，具备上传下载功能，支持数据增强方式选择以及多增强方式图片对比显示。

优选的，所述算法层具备多模型管理功能，具有模型的版本信息、模型的测试报告，支持模型的上传下载和迭代训练触发机制。

优选的，所述多模型管理功能包含模型在验证集上的整体评估，以及漏报率、误报率和mAP值性能指标，包含模型整体Loss曲线，正确率曲线。

优选的，所述多模型管理功能支持模型下载到本地和部署到现场应用平台。

优选的，所述多模型管理功能可以在原始模型基础上迭代训练设定次数，保证现场检测模型最优，保证模型快速部署。

与现有技术相比，本实用新型的有益效果是：该种基于容器化管理的电力AI训练平台，以容器化技术为基础，通过Web界面访问的方式，实现了电力AI训练平台的定制化，平台可以满足多种业务场景的需求，利用强大的硬件资源配置实现了电力场景下算法的快速训练及应用部署，能够直观显示模型优化过程及性能指标，有效管理算法模型，具备迭代训练触发机制，能够做到快速迭代模型，支撑现场算法的动态更新。

附图说明

图1为本实用新型系统设计方案示意图；

图2为本实用新型硬件资源架构示意图；

图3为本实用新型算法容器管理架构示意图；

图4为本实用新型任务创建流程示意图。

具体实施方式

下面将结合本实用新型实施例中的附图，对本实用新型实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本实用新型一部分实施例，而不是全部的实施例。基于本实用新型中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本实用新型保护的范围。

本实用新型提供一种基于容器化管理的电力AI训练平台，可实现助力于电力系统的智能化建设，帮助用户快速训练和部署电力场景下的AI算法模型，请参阅图1-4，包括硬件资源层、操作系统层、通信层、数据库层、算法层和任务层；

请再次参阅图1，模块之间电性串联，具体的，硬件资源层包含GPU资源池和存储资源池，通信层采用RabbitMQ多语言通信，数据库层依据训练平台算法层和任务层设计了相应的数据库表结构及其关联关系，算法层基于Tensorflow、Pytorch、Caffe深度学习框架，预置多种算法模型镜像文件，任务层包括图像分类、目标检测和图像分割三个深度学习领域，数据库层具备数据集管理及数据标定功能，具备上传下载功能，支持数据增强方式选择以及多增强方式图片对比显示。

请再次参阅图1，为了支持模型的上传下载和迭代训练触发机制，具体的，算法层具备多模型管理功能，具有模型的版本信息、模型的测试报告，支持模型的上传下载和迭代训练触发机制。

请再次参阅图1，为了进行整体评估，具体的，多模型管理功能包含模型在验证集上的整体评估，以及漏报率、误报率和mAP值性能指标，包含模型整体Loss曲线，正确率曲线。

请再次参阅图1，为了支持模型的上传下载，具体的，多模型管理功能支持模型下载到本地和部署到现场应用平台。

请再次参阅图1，为了在原始模型基础上迭代训练设定次数，具体的，多模型管理功能可以在原始模型基础上迭代训练设定次数，保证现场检测模型最优，保证模型快速部署。

实施例1

一种基于容器化管理的电力AI训练平台，包括硬件资源层、操作系统层、通信层、数据库层、算法层和任务层，该平台具有开放性、共享性、可扩展性等特点，硬件资源层包含GPU资源池和存储资源池，GPU资源池采用多机多卡Tesla P40 GPU服务器集群的方式，为算法训练提供硬件资源服务，支持多种硬件组成的混合集群统一管理、以GPU卡为粒度分配资源、支持硬件资源状态监控管理支持负载均衡，平滑扩容，实现硬件资源的合理调度，存储资源池采用3台集群的存储服务器，具备高性能，可实现35kB的图片进行4.5万张/秒的数据交互；支持可扩展，最大支持百台集群，并发能力线性扩展；具备高可用，支持元数据和用户数据的双份复制，保证平台稳定可靠，通信层采用RabbitMQ多语言通信，数据库层依据训练平台算法层和任务层设计了相应的数据库表结构及其关联关系，为训练平台提供了数据支撑，算法层基于Tensorflow、Pytorch、Caffe深度学习框架，预置多种算法模型镜像文件，适用多种电力场景下的算法训练，任务层包括图像分类、目标检测和图像分割三个深度学习领域，完成多算法统一管理与任务容器化异构资源统一调度，数据库层具备数据集管理及数据标定功能，具备上传下载功能，支持数据增强方式选择以及多增强方式图片对比显示。

实施例2

本实用新型系统设计方案如图1 所示，包括硬件资源层、操作系统层、通信层、数据库层、算法层和任务层。

其中，硬件资源层如图2所示：包含GPU资源池和存储资源池，硬件资源层采用Kubernets技术，部署容器方式实现多个主机上的容器化的应用简单且高效。

具体的，GPU资源池采用6机48卡Tesla P40 GPU服务器集群的方式，为算法训练提供硬件资源服务，支持多种硬件组成的混合集群统一管理、以GPU卡为粒度分配资源、支持硬件资源状态监控管理支持负载均衡，平滑扩容，实现硬件资源的合理调度。

具体的，存储资源池采用3台集群的存储服务器，具备高性能，可实现35kB的图片进行4.5万张/秒的数据交互；支持可扩展，最大支持百台集群，并发能力线性扩展；具备高可用，支持元数据和用户数据的双份复制，保证平台稳定可靠。

其中，数据库层依据训练平台算法层和任务层设计了相应的数据库表结构及其关联关系，为训练平台提供了数据支撑。数据库中记录了数据集与图片关联关系以及数据增强、标定信息，训练项目过程信息，算法模型的训练信息，模型管理及验证信息，通过这些信息可以对电力AI模型从建立到训练到最后的模型管理及现场部署进行直观的页面展示并跟踪。

其中，算法层如图3所示，本实用新型完成多算法统一容器管理与容器化异构资源统一调度。

具体的，容器化管理包括训练框架容器、训练工具容器，训练框架有主流的深度学习框架如：Caffe、Tensorflow、Pytorch等，训练工具主要分为图片分类、目标检测、图像分割三大类。

其中，任务层，根据电力系统AI应用场景分为图片分类、目标检测、图像分割三大类，不同的类别会选择对应的的训练工具下的算法。

具体的，任务创建如图4所示，包括以下步骤：

S1：通过Web账号登陆电力AI训练训练平台，选择需要训练的场景类型(分类、检测、分割)；

S2:选择数据集或者上传数据集，支持在线标注；

S3:选在相应的训练框架以及AI算法模型；

S4:上传算法配置文件进行超参数设置，启动训练脚本进行训练，进行算法模型验证，并根据验证信息修改超参数进行优化；

S5:模型上传部署应用平台或前端设备。

具体的，数据管理支持多种数据增强方式选择，并支持多栏效果对比展示。

具体的，模型训练根据GPU资源分配选择GPU训练个数，并进行训练过程监控，页面展示当前训练批次及Loss曲线。

具体的，模型验证，页面会展示模型在验证集上的效果，并支持多模型同时验证，对比显示模型效果，多栏展示结果图片。

具体的，模型管理指具有模型的版本信息、模型的测试报告，支持模型的上传下载和迭代训练触发机制。

其中，模型的测试报告包含模型在验证集上的整体评估，以及漏报率、误报率、mAP值性能指标，包含模型整体Loss曲线，正确率曲线。

其中，模型上传下载，是指支持模型下载到本地和部署到现场应用平台。

其中，迭代训练机制，是指现场数据新增加至设定的值后，模型可以在原始模型基础上迭代训练设定次数，保证现场检测模型最优，保证模型快速部署。

综合以上所述：本实用新型以容器化技术为基础，通过Web界面访问的方式，实现了电力AI训练平台的定制化，平台可以满足多种业务场景的需求，利用强大的硬件资源配置实现了电力场景下算法的快速训练及应用部署，本实用新型能够直观显示模型优化过程及性能指标，有效管理算法模型，具备迭代训练触发机制，能够做到快速迭代模型，支撑现场算法的动态更新。

虽然在上文中已经参考实施例对本实用新型进行了描述，然而在不脱离本实用新型的范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，本实用新型所披露的实施例中的各项特征均可通过任意方式相互结合起来使用，在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此，本实用新型并不局限于文中公开的特定实施例，而是包括落入权利要求的范围内的所有技术方案。

Claims

1.一种基于容器化管理的电力AI训练平台，其特征在于：包括硬件资源层、操作系统层、通信层、数据库层、算法层和任务层，所述硬件资源层包含GPU资源池和存储资源池，所述通信层采用RabbitMQ多语言通信，所述数据库层依据训练平台算法层和任务层设计了相应的数据库表结构及其关联关系，所述算法层基于Tensorflow、Pytorch、Caffe深度学习框架，预置多种算法模型镜像文件，所述任务层包括图像分类、目标检测和图像分割三个深度学习领域，所述数据库层具备数据集管理及数据标定功能，具备上传下载功能，支持数据增强方式选择以及多增强方式图片对比显示。

2.根据权利要求1所述一种基于容器化管理的电力AI训练平台，其特征在于：所述算法层具备多模型管理功能，具有模型的版本信息、模型的测试报告，支持模型的上传下载和迭代训练触发机制。

3.根据权利要求2所述一种基于容器化管理的电力AI训练平台，其特征在于：所述多模型管理功能包含模型在验证集上的整体评估，以及漏报率、误报率和mAP值性能指标，包含模型整体Loss曲线，正确率曲线。

4.根据权利要求3所述一种基于容器化管理的电力AI训练平台，其特征在于：所述多模型管理功能支持模型下载到本地和部署到现场应用平台。

5.根据权利要求4所述一种基于容器化管理的电力AI训练平台，其特征在于：所述多模型管理功能可以在原始模型基础上迭代训练设定次数，保证现场检测模型最优，保证模型快速部署。