CN212541377U - 一种基于容器化管理的电力ai训练平台 - Google Patents

一种基于容器化管理的电力ai训练平台 Download PDF

Info

Publication number
CN212541377U
CN212541377U CN202021707910.0U CN202021707910U CN212541377U CN 212541377 U CN212541377 U CN 212541377U CN 202021707910 U CN202021707910 U CN 202021707910U CN 212541377 U CN212541377 U CN 212541377U
Authority
CN
China
Prior art keywords
layer
model
training
algorithm
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202021707910.0U
Other languages
English (en)
Inventor
张可
茆骥
黄文礼
康伟东
杨建旭
童旸
王柳
汪金礼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Nanrui Jiyuan Power Grid Technology Co ltd
Original Assignee
Anhui Nanrui Jiyuan Power Grid Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Nanrui Jiyuan Power Grid Technology Co ltd filed Critical Anhui Nanrui Jiyuan Power Grid Technology Co ltd
Priority to CN202021707910.0U priority Critical patent/CN212541377U/zh
Application granted granted Critical
Publication of CN212541377U publication Critical patent/CN212541377U/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本实用新型公开的属于人工智能技术领域,具体为一种基于容器化管理的电力AI训练平台,包括硬件资源层、操作系统层、通信层、数据库层、算法层和任务层,所述硬件资源层包含GPU资源池和存储资源池,所述通信层采用RabbitMQ多语言通信,该种基于容器化管理的电力AI训练平台,以容器化技术为基础,通过Web界面访问的方式,实现了电力AI训练平台的定制化,平台可以满足多种业务场景的需求,利用强大的硬件资源配置实现了电力场景下算法的快速训练及应用部署,能够直观显示模型优化过程及性能指标,有效管理算法模型,具备迭代训练触发机制,能够做到快速迭代模型,支撑现场算法的动态更新。

Description

一种基于容器化管理的电力AI训练平台
技术领域
本实用新型涉及人工智能技术领域,具体为一种基于容器化管理的电力AI训练平台。
背景技术
近年来,随着计算机技术的进步,机器学习特别是深度学习获得了极大的发展,依然已经成为当前最火热的研究领域,在包括电力行业在内的很多其他领域都得到很大的推广和应用。
深度学习的研究需要更大的数据集、更高的计算量,更久的运算时间,这个时候单台的计算机资源(CPU、GPU、内存、磁盘等)和性能很容易陷入瓶颈,无法满足深度学习任务的执行,目前GPU集群的训练方式是当前解决多卡多机AI算法训练的核心技术。
以Docker为代表的容器化技术日渐成熟,使用镜像创建一个虚拟化的运行环境,运行环境中包含了所需要的所有依赖,其轻量级,易管理的特点受到了广泛的欢迎,因此使用Docker来部署AI训练平台的相关组件,来组合形成最终的AI训练平台可以减少很多工作,同时对平台的鲁棒性也提供了很大的支撑。本实用新型以容器化技术为基础,通过Web界面访问的方式,实现电力AI训练平台的定制化。
目前市面上的AI训练平台,通常只能使用平台内置的模型进行训练与预测,无法让用户自己开发算法,无法支持可定制化的模型训练与预测,不能满足多种业务场景的需求。同时模型的部署应用与平台自带的产品绑定,无法做到灵活使用,另外缺乏对训练模型管理,无法直观显示模型优化过程及性能指标以及缺乏迭代训练触发机制,因此难以做到快速迭代模型,支撑现场算法的动态更新。
实用新型内容
本实用新型的目的在于提供一种基于容器化管理的电力AI训练平台,以解决上述背景技术中提出的现有的目前市面上的AI训练平台,通常只能使用平台内置的模型进行训练与预测,无法让用户自己开发算法,无法支持可定制化的模型训练与预测,不能满足多种业务场景的需求。同时模型的部署应用与平台自带的产品绑定,无法做到灵活使用,另外缺乏对训练模型管理,无法直观显示模型优化过程及性能指标以及缺乏迭代训练触发机制,因此难以做到快速迭代模型,支撑现场算法的动态更新的问题。
为实现上述目的,本实用新型提供如下技术方案:一种基于容器化管理的电力AI训练平台,包括硬件资源层、操作系统层、通信层、数据库层、算法层和任务层,所述硬件资源层包含GPU资源池和存储资源池,所述通信层采用RabbitMQ多语言通信,所述数据库层依据训练平台算法层和任务层设计了相应的数据库表结构及其关联关系,所述算法层基于Tensorflow、Pytorch、Caffe深度学习框架,预置多种算法模型镜像文件,所述任务层包括图像分类、目标检测和图像分割三个深度学习领域,所述数据库层具备数据集管理及数据标定功能,具备上传下载功能,支持数据增强方式选择以及多增强方式图片对比显示。
优选的,所述算法层具备多模型管理功能,具有模型的版本信息、模型的测试报告,支持模型的上传下载和迭代训练触发机制。
优选的,所述多模型管理功能包含模型在验证集上的整体评估,以及漏报率、误报率和mAP值性能指标,包含模型整体Loss曲线,正确率曲线。
优选的,所述多模型管理功能支持模型下载到本地和部署到现场应用平台。
优选的,所述多模型管理功能可以在原始模型基础上迭代训练设定次数,保证现场检测模型最优,保证模型快速部署。
与现有技术相比,本实用新型的有益效果是:该种基于容器化管理的电力AI训练平台,以容器化技术为基础,通过Web界面访问的方式,实现了电力AI训练平台的定制化,平台可以满足多种业务场景的需求,利用强大的硬件资源配置实现了电力场景下算法的快速训练及应用部署,能够直观显示模型优化过程及性能指标,有效管理算法模型,具备迭代训练触发机制,能够做到快速迭代模型,支撑现场算法的动态更新。
附图说明
图1为本实用新型系统设计方案示意图;
图2为本实用新型硬件资源架构示意图;
图3为本实用新型算法容器管理架构示意图;
图4为本实用新型任务创建流程示意图。
具体实施方式
下面将结合本实用新型实施例中的附图,对本实用新型实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本实用新型一部分实施例,而不是全部的实施例。基于本实用新型中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本实用新型保护的范围。
本实用新型提供一种基于容器化管理的电力AI训练平台,可实现助力于电力系统的智能化建设,帮助用户快速训练和部署电力场景下的AI算法模型,请参阅图1-4,包括硬件资源层、操作系统层、通信层、数据库层、算法层和任务层;
请再次参阅图1,模块之间电性串联,具体的,硬件资源层包含GPU资源池和存储资源池,通信层采用RabbitMQ多语言通信,数据库层依据训练平台算法层和任务层设计了相应的数据库表结构及其关联关系,算法层基于Tensorflow、Pytorch、Caffe深度学习框架,预置多种算法模型镜像文件,任务层包括图像分类、目标检测和图像分割三个深度学习领域,数据库层具备数据集管理及数据标定功能,具备上传下载功能,支持数据增强方式选择以及多增强方式图片对比显示。
请再次参阅图1,为了支持模型的上传下载和迭代训练触发机制,具体的,算法层具备多模型管理功能,具有模型的版本信息、模型的测试报告,支持模型的上传下载和迭代训练触发机制。
请再次参阅图1,为了进行整体评估,具体的,多模型管理功能包含模型在验证集上的整体评估,以及漏报率、误报率和mAP值性能指标,包含模型整体Loss曲线,正确率曲线。
请再次参阅图1,为了支持模型的上传下载,具体的,多模型管理功能支持模型下载到本地和部署到现场应用平台。
请再次参阅图1,为了在原始模型基础上迭代训练设定次数,具体的,多模型管理功能可以在原始模型基础上迭代训练设定次数,保证现场检测模型最优,保证模型快速部署。
实施例1
一种基于容器化管理的电力AI训练平台,包括硬件资源层、操作系统层、通信层、数据库层、算法层和任务层,该平台具有开放性、共享性、可扩展性等特点,硬件资源层包含GPU资源池和存储资源池,GPU资源池采用多机多卡Tesla P40 GPU服务器集群的方式,为算法训练提供硬件资源服务,支持多种硬件组成的混合集群统一管理、以GPU卡为粒度分配资源、支持硬件资源状态监控管理支持负载均衡,平滑扩容,实现硬件资源的合理调度,存储资源池采用3台集群的存储服务器,具备高性能,可实现35kB的图片进行4.5万张/秒的数据交互;支持可扩展,最大支持百台集群,并发能力线性扩展;具备高可用,支持元数据和用户数据的双份复制,保证平台稳定可靠,通信层采用RabbitMQ多语言通信,数据库层依据训练平台算法层和任务层设计了相应的数据库表结构及其关联关系,为训练平台提供了数据支撑,算法层基于Tensorflow、Pytorch、Caffe深度学习框架,预置多种算法模型镜像文件,适用多种电力场景下的算法训练,任务层包括图像分类、目标检测和图像分割三个深度学习领域,完成多算法统一管理与任务容器化异构资源统一调度,数据库层具备数据集管理及数据标定功能,具备上传下载功能,支持数据增强方式选择以及多增强方式图片对比显示。
实施例2
本实用新型系统设计方案如图1 所示,包括硬件资源层、操作系统层、通信层、数据库层、算法层和任务层。
其中,硬件资源层如图2所示:包含GPU资源池和存储资源池,硬件资源层采用Kubernets技术,部署容器方式实现多个主机上的容器化的应用简单且高效。
具体的,GPU资源池采用6机48卡Tesla P40 GPU服务器集群的方式,为算法训练提供硬件资源服务,支持多种硬件组成的混合集群统一管理、以GPU卡为粒度分配资源、支持硬件资源状态监控管理支持负载均衡,平滑扩容,实现硬件资源的合理调度。
具体的,存储资源池采用3台集群的存储服务器,具备高性能,可实现35kB的图片进行4.5万张/秒的数据交互;支持可扩展,最大支持百台集群,并发能力线性扩展;具备高可用,支持元数据和用户数据的双份复制,保证平台稳定可靠。
其中,数据库层依据训练平台算法层和任务层设计了相应的数据库表结构及其关联关系,为训练平台提供了数据支撑。数据库中记录了数据集与图片关联关系以及数据增强、标定信息,训练项目过程信息,算法模型的训练信息,模型管理及验证信息,通过这些信息可以对电力AI模型从建立到训练到最后的模型管理及现场部署进行直观的页面展示并跟踪。
其中,算法层如图3所示,本实用新型完成多算法统一容器管理与容器化异构资源统一调度。
具体的,容器化管理包括训练框架容器、训练工具容器,训练框架有主流的深度学习框架如:Caffe、Tensorflow、Pytorch等,训练工具主要分为图片分类、目标检测、图像分割三大类。
其中,任务层,根据电力系统AI应用场景分为图片分类、目标检测、图像分割三大类,不同的类别会选择对应的的训练工具下的算法。
具体的,任务创建如图4所示,包括以下步骤:
S1:通过Web账号登陆电力AI训练训练平台,选择需要训练的场景类型(分类、检测、分割);
S2:选择数据集或者上传数据集,支持在线标注;
S3:选在相应的训练框架以及AI算法模型;
S4:上传算法配置文件进行超参数设置,启动训练脚本进行训练,进行算法模型验证,并根据验证信息修改超参数进行优化;
S5:模型上传部署应用平台或前端设备。
具体的,数据管理支持多种数据增强方式选择,并支持多栏效果对比展示。
具体的,模型训练根据GPU资源分配选择GPU训练个数,并进行训练过程监控,页面展示当前训练批次及Loss曲线。
具体的,模型验证,页面会展示模型在验证集上的效果,并支持多模型同时验证,对比显示模型效果,多栏展示结果图片。
具体的,模型管理指具有模型的版本信息、模型的测试报告,支持模型的上传下载和迭代训练触发机制。
其中,模型的测试报告包含模型在验证集上的整体评估,以及漏报率、误报率、mAP值性能指标,包含模型整体Loss曲线,正确率曲线。
其中,模型上传下载,是指支持模型下载到本地和部署到现场应用平台。
其中,迭代训练机制,是指现场数据新增加至设定的值后,模型可以在原始模型基础上迭代训练设定次数,保证现场检测模型最优,保证模型快速部署。
综合以上所述:本实用新型以容器化技术为基础,通过Web界面访问的方式,实现了电力AI训练平台的定制化,平台可以满足多种业务场景的需求,利用强大的硬件资源配置实现了电力场景下算法的快速训练及应用部署,本实用新型能够直观显示模型优化过程及性能指标,有效管理算法模型,具备迭代训练触发机制,能够做到快速迭代模型,支撑现场算法的动态更新。
虽然在上文中已经参考实施例对本实用新型进行了描述,然而在不脱离本实用新型的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本实用新型所披露的实施例中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本实用新型并不局限于文中公开的特定实施例,而是包括落入权利要求的范围内的所有技术方案。

Claims (5)

1.一种基于容器化管理的电力AI训练平台,其特征在于:包括硬件资源层、操作系统层、通信层、数据库层、算法层和任务层,所述硬件资源层包含GPU资源池和存储资源池,所述通信层采用RabbitMQ多语言通信,所述数据库层依据训练平台算法层和任务层设计了相应的数据库表结构及其关联关系,所述算法层基于Tensorflow、Pytorch、Caffe深度学习框架,预置多种算法模型镜像文件,所述任务层包括图像分类、目标检测和图像分割三个深度学习领域,所述数据库层具备数据集管理及数据标定功能,具备上传下载功能,支持数据增强方式选择以及多增强方式图片对比显示。
2.根据权利要求1所述一种基于容器化管理的电力AI训练平台,其特征在于:所述算法层具备多模型管理功能,具有模型的版本信息、模型的测试报告,支持模型的上传下载和迭代训练触发机制。
3.根据权利要求2所述一种基于容器化管理的电力AI训练平台,其特征在于:所述多模型管理功能包含模型在验证集上的整体评估,以及漏报率、误报率和mAP值性能指标,包含模型整体Loss曲线,正确率曲线。
4.根据权利要求3所述一种基于容器化管理的电力AI训练平台,其特征在于:所述多模型管理功能支持模型下载到本地和部署到现场应用平台。
5.根据权利要求4所述一种基于容器化管理的电力AI训练平台,其特征在于:所述多模型管理功能可以在原始模型基础上迭代训练设定次数,保证现场检测模型最优,保证模型快速部署。
CN202021707910.0U 2020-08-17 2020-08-17 一种基于容器化管理的电力ai训练平台 Active CN212541377U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202021707910.0U CN212541377U (zh) 2020-08-17 2020-08-17 一种基于容器化管理的电力ai训练平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202021707910.0U CN212541377U (zh) 2020-08-17 2020-08-17 一种基于容器化管理的电力ai训练平台

Publications (1)

Publication Number Publication Date
CN212541377U true CN212541377U (zh) 2021-02-12

Family

ID=74527962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202021707910.0U Active CN212541377U (zh) 2020-08-17 2020-08-17 一种基于容器化管理的电力ai训练平台

Country Status (1)

Country Link
CN (1) CN212541377U (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926736A (zh) * 2021-02-26 2021-06-08 全球能源互联网研究院有限公司 一种深度学习技术工具链系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926736A (zh) * 2021-02-26 2021-06-08 全球能源互联网研究院有限公司 一种深度学习技术工具链系统
CN112926736B (zh) * 2021-02-26 2023-12-08 国网智能电网研究院有限公司 一种深度学习技术工具链系统

Similar Documents

Publication Publication Date Title
CN111814911A (zh) 一种基于容器化管理的电力ai训练平台及其训练方法
Yuan et al. A data placement strategy in scientific cloud workflows
US9703890B2 (en) Method and system that determine whether or not two graph-like representations of two systems describe equivalent systems
US8312037B1 (en) Dynamic tree determination for data processing
US9996593B1 (en) Parallel processing framework
CN109697153A (zh) 监控方法、监控系统及计算机可读存储介质
Du et al. Scientific workflows in IoT environments: a data placement strategy based on heterogeneous edge-cloud computing
CN106020715A (zh) 存储池容量管理
CN107231815A (zh) 用于流传输服务器的会话空闲优化
JP7527716B2 (ja) データ処理方法、装置、電子機器、及びコンピュータプログラム
CN113742033B (zh) 一种kubernetes集群联邦系统及其实现方法
CN104283960A (zh) 实现异构网络存储的虚拟化整合及分级管理的系统
CN105677479A (zh) 并行运行gpu运算程序的实现方法及装置
CN102722381A (zh) 优化升级任务的技术
CN107239521A (zh) 一种分布式集群上的回收站应用方法及系统
CN109151824A (zh) 一种基于5g架构的图书馆数据服务扩展系统及方法
CN112114849A (zh) 一种资源更新方法和装置
CN212541377U (zh) 一种基于容器化管理的电力ai训练平台
CN116383223A (zh) 资产数据处理方法、相关装置及存储介质
Kumar et al. Replication-Based Query Management for Resource Allocation Using Hadoop and MapReduce over Big Data
CN116594834A (zh) 一种用于多协议服务器的运维数据处理方法及装置
KR101378348B1 (ko) 프라이빗 클라우드 인프라 기반 하둡 클러스터의 기본 프로토타입
Yang et al. On construction of the air pollution monitoring service with a hybrid database converter
CN116126415A (zh) 一种基于场景的上云组件配置推荐方法及系统
US20220374702A1 (en) Methods and systems for predicting behavior of distributed applications

Legal Events

Date Code Title Description
GR01 Patent grant
GR01 Patent grant