CN115169810A

CN115169810A - 一种面向电网调控的人工智能系统构建方法及装置

Info

Publication number: CN115169810A
Application number: CN202210648136.8A
Authority: CN
Inventors: 刘金波; 李�昊; 万雄; 翟明玉; 葛睿; 王秋楠; 张伟; 孙广辉; 习新魁; 杨立波; 马斌; 李一鹏; 季学纯; 陈子韵; 王宇冬; 张珂珩; 李佳阳; 沈嘉灵; 劳莹莹
Original assignee: State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd; Nari Technology Co Ltd; State Grid Electric Power Research Institute
Current assignee: State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd; Nari Technology Co Ltd; State Grid Electric Power Research Institute
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-10-11

Abstract

本发明公开了一种面向电网调控的人工智能系统构建方法及装置，其方法包括：将各物理或虚拟服务器的算力资源进行集群资源池化生成虚拟资源池；对从电网调控系统中提取不同类型的样本数据进行预处理、样本标注以及样本数据集存储，统一建立样本数据的资源服务目录；集成开源算法框架，并将应用自研算法纳入统一管理；提供可视化机器学习建模引擎，可视化机器学习建模引擎将机器学习AI模型构建和开发转变为图形化流程编排与执行，将数据、算法、AI模型训练与评估前后端一体化整合；对训练好的AI模型进行持久化存储并进行配置管理和版本化管理；本发明能够降低人工智能应用研发门槛，助力电网调控领域人工智能应用快速落地。

Description

一种面向电网调控的人工智能系统构建方法及装置

技术领域

本发明涉及一种面向电网调控的人工智能系统构建方法及装置，属于电力系统技术领域。

背景技术

作为新一轮产业变革的核心驱动力，人工智能(AI：Artificial Intelligence)在赋能提升传统行业、催生新兴产业方面成效显著。目前电力系统自动化领域人工智能研究和应用取得了一定的成果，但还存在以下问题：算力分散且较难扩展，各类应用“烟囱式”部署人工智能开发运行环境，造成了底层硬件资源的重复建设、算力分散且较难扩展。算法框架不统一且部署复杂，应用独立部署、升级底层算法库工作繁杂，基于不同算法库版本开发的应用自研算法与模型无法共享使用。缺乏高效的AI模型构建工具支撑，基准模型构建、模型迭代优化需要投入大量人工重复性工作，并且模型准确性较难提升。样本数据、模型成果没有统一管理与共享，训练样本数据与训练成果模型需要持久化管理与多厂家间共享。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种面向电网调控的人工智能系统构建方法及装置，能够构建“算力统筹、智能共享”的人工智能应用开发及服务支撑系统，为人工智能应用研制与运用提供算力、数据、算法和服务的全栈式支撑，降低人工智能应用研发门槛，助力电网调控领域人工智能应用快速落地，将电网调控领域应用人工智能技术成果进行沉淀，构建共建共享的AI生态环境。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种面向电网调控的人工智能系统构建方法，包括：

将各物理或虚拟服务器进行集群算力资源池化生成虚拟资源池；所述虚拟资源池用于提供AI模型训练与评估的运行环境；

对从电网调控系统中提取不同类型的样本数据进行预处理、样本标注以及样本数据集存储，统一建立样本数据的资源服务目录；所述资源服务目录用于实现样本数据集的元数据共享；

将主流开源算法框架以及应用自研算法进行统一管理，建立集成开源算法框架；所述集成开源算法框架用于提供算法支撑；

构建可视化机器学习建模引擎，通过可视化机器学习建模引擎将机器学习AI模型构建和开发转变为图形化流程编排与执行；所述可视化机器学习建模引擎用于提供AI模型构建支撑；

构建AI模型仓库，通过AI模型仓库对训练好的AI模型进行持久化存储并进行配置管理和版本化管理，并对存储与管理的AI模型进行一键微服务化发布和能力共享；所述AI模型仓库用于实现AI模型赋能和业务应用。

可选的，所述将各物理或虚拟服务器进行集群算力资源池化生成虚拟资源池包括：

将各物理或虚拟服务器进行集群算力资源池化，根据集群算力资源中不同服务器的可用算力资源进行标签化管理，通过将集群算力资源整合成虚拟资源池；

所述标签化管理包括：将用户ID作为Kubernetes中的命名空间对虚拟资源池进行逻辑划分与隔离；管理员为不同用户分配所需资源信息，所述资源信息采用户用资源配额表进行持久化存储；

所述算力资源包括CPU资源、GPU资源、内存与存储资源。

可选的，所述从电网调控系统中提取不同类型的样本数据包括从模型数据平台、实时数据平台、运行数据平台以及大数据平台获取电网模型、量测数据、电量、运行事件、计划、气象数据的结构化、半结构化与非结构化数据。

可选的，所述预处理数据清洗和数据转换，所述数据清洗包括空值处理、识别孤立点、消除噪声和冗余、纠正数据中的不一致、剔除脏数据；所述数据转换包括按照数据挖掘分析的需求，将数据转化成适合于数据分析的结构，包括数据类型转换、离散化处理、数据维度变换。

可选的，所述主流开源算法框架包括Scikit-learn、PyTorch、TensorFlow、XgBoost、MXNet。

可选的，所述将机器学习AI模型构建和开发转变为图形化流程编排与执行包括：

将算法抽象为运算节点；在可视化机器学习建模引擎中通过拖拽所述运算节点至底层画布中，并通过有向线进行连接形成数理分析、机器学习及深度学习AI模型构建流程并生成流程文件；

在数据分析、AI模型构建流程运行阶段，所述可视化机器学习建模引擎对流程文件完整性、正确确性进行校验，并获取所述流程运行所需的算力资源信息，动态生成算力资源信息文件；

在算力资源信息文件生成后，通过可视化机器学习建模引擎向虚拟资源池申请相匹配的容器化运行环境，容器化运行环境创建成功后，所述可视化机器学习建模引擎将流程文件发送至容器内部的任务执行调度器，任务执行调度器通过解析运算序列依次调用相应运算节点对应的运算程序，从而整体完成机器学习流程化训练任务执行。

可选的，所述对训练好的AI模型进行持久化存储并进行配置管理和版本化管理包括：

通过存储API将AI模型文件保存至分布式文件中；

通过AI模型分类字典表进行配置管理，所述AI模型分类字典表包括应用类型UUID、一级分类和二级分类，所述一级分类包括图像、语音、文本、结构化数据；所述二级分类为一级分类对应的业务功能；所述配置管理包括根据AI模型分类字典表与AI模型文件进行匹配获取所述AI模型文件对应的应用类型UUID、一级分类和二级分类；

通过AI模型版本信息表进行版本化管理，所述AI模型版本信息表包括AI模型UUID、版本编号、所属应用、模型保存时间、算法模型框架类型、模型存储路径；所述版本化管理包括根据AI模型版本信息表与AI模型文件进行匹配获取所述AI模型文件对应的AI模型UUID、版本编号、所属应用、模型保存时间、算法模型框架类型、模型存储路径。

第二方面，本发明提供了一种采用如上述的一种面向电网调控的人工智能系统构建方法构建的人工智能系统，包括：

算力支撑层，用于将各物理或虚拟服务器进行集群算力资源进行集群资源池化生成虚拟资源池；所述虚拟资源池用于提供AI模型训练与评估的运行环境；

数据支撑层，用于对从电网调控系统中提取不同类型的样本数据进行预处理、样本标注以及样本数据集存储，统一建立样本数据的资源服务目录；所述资源服务目录用于实现样本数据集的元数据共享；

算法支撑层，用于将主流开源算法框架以及应用自研算法进行统一管理，建立集成开源算法框架；所述集成开源算法框架用于提供算法支撑；

模型构建支撑层，用于构建可视化机器学习建模引擎，通过可视化机器学习建模引擎将机器学习AI模型构建和开发转变为图形化流程编排与执行；所述可视化机器学习建模引擎用于提供AI模型构建支撑；

模型赋能和业务应用层，用于构建AI模型仓库，通过AI模型仓库对训练好的AI模型进行持久化存储并进行配置管理和版本化管理，并对存储与管理的AI模型进行一键微服务化发布和能力共享；所述AI模型仓库用于实现AI模型赋能和业务应用。

第三方面，本发明提供了一种面向电网调控的人工智能系统构建装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据上述方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明提供了一种面向电网调控的人工智能系统构建方法及装置，通过虚拟资源池提供提供AI模型训练与评估的运行环境，通过集成开源算法框架提供算法支撑，通过可视化机器学习建模引擎提供AI模型构建支撑，通过AI模型仓库实现AI模型赋能和业务应用；整体针对训练数据构建、算法开发、模型构建、模型管理、模型部署等AI应用开发环节提供全过程组件支撑，促进人工智能技术在电力系统领域落地。

附图说明

图1是本发明实施例提供的一种面向电网调控的人工智能系统构建方法的流程图；

图2是本发明实施例提供的GPU算力资源优化原理示意图；

图3是本发明实施例提供的样本数据预处理流程示意图；

图4是本发明实施例提供的可视化机器学习建模引擎原理示意图；

图5是本发明实施例提供的AI模型推理服务发布原理示意图；

图6是本发明实施例提供的面向电网调控的人工智能系统示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1所示，本发明实施例提供了一种面向电网调控的人工智能系统构建方法，包括以下步骤：

1、通过(Docker(容器)+Kubernetes(容器编排))技术将各物理或虚拟服务器进行集群算力资源进行集群资源池化生成虚拟资源池；虚拟资源池用于提供AI模型训练与评估的运行环境；

算力资源包括CPU资源、GPU资源、内存与存储资源。

将各物理或虚拟服务器进行集群算力资源池化，根据集群算力资源中不同服务器的可用算力资源进行标签化管理，通过Kubernetes将集群算力资源整合成虚拟资源池；

标签化管理包括：将用户ID作为Kubernetes中的命名空间对虚拟资源池进行逻辑划分与隔离；管理员为不同用户分配所需资源信息，资源信息采用户用资源配额表进行持久化存储；通过Kubernetes的基于用户角色的访问控制对不同用户可操作的命名空间赋予访问权限，防止用户间的算力资源使用相互干扰。

Kubernetes提供了Nvidia GPU容器化的调度能力，但是通常都是将一个GPU卡分配给一个容器，虽然这可以实现比较好的隔离性，确保使用GPU的应用不会被其他应用影响，对于深度学习模型训练的场景非常适合；但是如果对于模型构建和推理预测的场景就会比较浪费，这些场景可以共享同一个GPU卡上，进而提高集群中Nvidia GPU的利用率，因此平台对AI模型训练与推理过程对GPU资源的独占性问题进行了Kubernetes方面的功能扩展。

如图2所示，1)在每台物理服务器上部署GPU资源查询服务，用于查询GPU卡的数量和每张GPU卡的显存使用情况，并将上述数据汇报给Kubernetes API Server，用于在给每个训练、预测任务分配容器化资源时计算每张GPU卡是否有足够的GPU内存可以进行分配。2)对原Kubernetes Pod调度器以GPU卡分配粒度的逻辑进行调整，修改为当调度器找到满足GPU内存剩余使用条件的服务器节点，通过Kubelet调用GPU Share Device Plugin的Allocate方法，将该服务器节点与将要创建的绑定进行绑定。

2、对从电网调控系统中提取不同类型的样本数据进行预处理、样本标注以及样本数据集存储，统一建立样本数据的资源服务目录；资源服务目录用于实现样本数据集的元数据共享；

2.1、从电网调控系统中提取不同类型的样本数据包括从模型数据平台、实时数据平台、运行数据平台以及大数据平台获取电网模型、量测数据、电量、运行事件、计划、气象数据的结构化、半结构化与非结构化数据。

2.2、预处理数据清洗和数据转换，数据清洗包括空值处理、识别孤立点、消除噪声和冗余、纠正数据中的不一致、剔除脏数据；数据转换包括按照数据挖掘分析的需求，将数据转化成适合于数据分析的结构，包括数据类型转换、离散化处理、数据维度变换。如图3所示，针对业务样本数据集通过数据清洗技术提升样本数据质量，数据清洗是将不适合应用本身的数据检测出来并进行修正与转化，提高数据质量，减小数据质量问题给数据应用带来的影响，提升数据分析的效率与准确性。数据清洗从内容上设计为清洗和转换两部分。清洗涉及空值处理，识别孤立点、消除噪声和冗余，纠正数据中的不一致，剔除脏数据等，旨在提高数据质量；数据转换侧重于按照数据挖掘分析的需求，将数据转化成适合于数据分析的结构，包括数据类型转换、离散化处理、数据维度变换等功能，目的是提升数据分析的效率与准确性。

系统针对不同类型错误数据提供以下数据清理功能：

(1)约束设置：给一个列设置多个约束。

(2)校验数据类型：通过设置格式掩码找到非法数据。

(3)错误合并：把同一行里发现的所有错误，连接合并成一个字符分割的字符串，保存到错误描述字段中。

(4)约束条件参数化：将约束条件参数化，通过一个中心规则库来管理这些约束条件，数据清洗工具可以读取这些规则并传递给数据验证的步骤。

(5)正则表达式匹配：根据正则表达式进行字符串匹配。

(6)数据去重：通过预先排序或者唯一行哈希值的方式，去除重复的记录。当单一的数据清洗步骤无法满足实际需求时，可将多个清洗步骤组合起来完成数据清洗功能。

2.3、资源服务目录如表1、表2所示：

表1样本数据集管理元数据表

表2样本数据文件管理元数据表

3、将主流开源算法框架以及应用自研算法进行统一管理，建立集成开源算法框架；所述集成开源算法框架用于提供算法支撑；

开源算法框架包括Scikit-learn、PyTorch、TensorFlow、XgBoost、MXNet、paddlepaddle；开源算法框架用于提供特征工程、统计分析、机器学习、深度学习、文本分析方向的算法支撑。

系统支持包括卡方检验、数据归一化、标准化、分箱、类型转换、主成分分析、线性判别分析等特征提取、特征选择、特征转换、数据降维等方面的特征工程算法，将原始数据转化成更好的表达问题本质的特征的过程，使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。

系统集成了决策树分类、朴素贝叶斯分类、随机森林分类、决策树回归、线性回归、梯度提升树回归、k均值、DBSCAN、文本词向量、TF-IDF等分类、回归、聚类、文本分析等方向的算法包。

系统集成了卷积神经网络、循环神经网络、长短期记忆网络(LSTM)等电网运行分析预测、电网故障辅助决策等业务应用常用算法模型库。

模型列表如表3所示：

表3系统提供的人工智能算法模型列表

4、构建可视化机器学习建模引擎，通过可视化机器学习建模引擎将机器学习AI模型构建和开发转变为图形化流程编排与执行，将数据、算法、AI模型训练与评估前后端一体化整合；可视化机器学习建模引擎用于提供AI模型构建支撑；

如图4所示，可视化机器学习建模引擎将算法抽象为运算节点；在可视化机器学习建模引擎中通过拖拽算子节点至底层画布中，并通过有向线进行连接形成数理分析、机器学习及深度学习AI模型构建流程并生成json文件；

引擎提供以下图形化拖拽式交互操作功能：

1)算子图元操作控制。实现算子图元的拖拽功能，通过鼠标选中图元库中图元，点击选中，移动鼠标，在拖拽窗口中释放鼠标，在当前窗口中生成所需要的图元；通过移动鼠标，可以改变图元的位置。

2)数据流转操作控制。实现图元的数据节点操作控制功能，通过图元上的数据节点自动生成连接线，然后连接到图元的另一端数据节点。

3)模型流转操作控制。实现模型节点的的操作控制功能，通过图元上的模型节点自动生成连接线，然后连接到图元的另一端模型节点。

json文件的基本格式如下：

如上所述，数理分析、机器学习及深度学习模型构建流程json文件主要由流程UUID(flowId)、流程运行所需算力资源(resources)、算子间有向关系(edges)、算子所处画布坐标(baseinfo)、算子参数信息(parameters)构成。

在数据分析、AI模型构建流程运行阶段，可视化机器学习建模引擎对json文件完整性、正确确性进行校验，并获取流程运行所需的算力资源信息，动态生成KubernetesYAML格式的文件；文件包含容器(containers)定义Pod中容器的名称(name)、运行时的镜像(image)、镜像的拉取策略(imagePullPolicy)、containers的环境变量(env)、CPU/GPU/内存等重要信息。

在Kubernetes YAML文件生成后，可视化机器学习建模引擎向Kubernetes APIServer申请相匹配的容器化运行环境，容器化运行环境创建成功后，可视化机器学习建模引擎将json文件发送至容器内部的任务执行调度器，任务执行调度器通过解析运算序列依次调用相应运算节点对应的运算程序，从而整体完成机器学习流程化训练任务执行。

任务执行调度器将DAG图中算子间连接关系与执行顺序编号插入可视化建模算子执行关系表，表4中记录了执行编号UUID、算子UUID、运行顺序号、算子状态等信息，为任务执行调度器顺序、循环、断点续作等功能提供支撑。

表4可视化建模算子执行关系表

任务执行调度器从order_no＝1的起始算子开始运行，首先将每个算子产生的数据运算结果、AI模型文件存放在下一个算子代码文件所处的路径中；再采用子进程调用方式，调用算子对应的代码文件，通过传入算法所需的参数信息；任务执行调度器捕获算子子进程的运行结果，并将执行成功或失败结果更新到可视化建模算子执行关系表相应记录的status_flag字段；当前算子执行失败且影响到后续算子执行情况下，任务执行调度器退出；在执行完最后一个节点，任务执行调度器将上传数据分析计算结果、AI模型文件至分布式文件系统；在数据分析、模型构建流程执行完后，Kubernetes关闭容器并回收算力资源。

5、构建AI模型仓库，通过AI模型仓对训练好的AI模型进行持久化存储并进行配置管理和版本化管理，对存储与管理的AI模型提供一键微服务化发布功能和能力共享功能，实现AI模型赋能和业务应用。

5.1、通过存储API将AI模型文件保存至分布式文件中；

5.2、通过AI模型分类字典表进行配置管理，AI模型分类字典表包括应用类型UUID、一级分类和二级分类，一级分类包括图像、语音、文本、结构化数据；二级分类为一级分类对应的业务功能；

AI模型分类字典表如表5所示：

表5调控领域AI模型分类字典表

5.3、通过AI模型版本信息表进行版本化管理，AI模型版本信息表包括AI模型UUID、版本编号、所属应用、模型保存时间、算法模型框架类型、模型存储路径。

AI模型版本信息表如表6所示：

表6AI模型版本信息表

系统针对Scikit-learn、TensorFlow、Pytorch等不同机器学习、深度学习算法模型框架封装相适配AI模型推理服务容器镜像，用户通过界面化工具选择需要进行服务化发布的应用AI模型，系统从表6AI模型版本信息表中查询获取到算法模型框架类型及其版本(model_type_version)与模型存储路径(model_path)信息，系统根据AI模型信息、所需CPU/GPU/内存资源、发布的服务名、服务端口等信息调用Kubernetes API创建Service，并通过Ingress实现集群外部通过URL向指定Pod发送http请求，如图5基于容器的AI模型推理服务发布原理示意图所示。

Ingress中设置了Kubernetes集群可接收服务请求的规则列表，在接收到http请求后进行规则匹配，并将报文转发到相应的AI模型推理服务，服务根据http请求内容进行分析预测，并返回结果。

实施例二：

如图6所示，本发明实施例提供了一种采用如上述的一种面向电网调控的人工智能系统构建方法构建的人工智能系统，包括：

实施例三：

本发明实施例提供了一种面向电网调控的人工智能系统构建装置，包括处理器及存储介质；

存储介质用于存储指令；

处理器用于根据指令进行操作以执行根据上述方法的步骤。

实施例四：

本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种面向电网调控的人工智能系统构建方法，其特征在于，包括：

2.根据权利要求1所述的一种面向电网调控的人工智能系统构建方法，其特征在于，所述将各物理或虚拟服务器进行集群算力资源池化生成虚拟资源池包括：

所述算力资源包括CPU资源、GPU资源、内存与存储资源。

3.根据权利要求1所述的一种面向电网调控的人工智能系统构建方法，其特征在于，所述从电网调控系统中提取不同类型的样本数据包括从模型数据平台、实时数据平台、运行数据平台以及大数据平台获取电网模型、量测数据、电量、运行事件、计划、气象数据的结构化、半结构化与非结构化数据。

4.根据权利要求1所述的一种面向电网调控的人工智能系统构建方法，其特征在于，所述预处理数据清洗和数据转换，所述数据清洗包括空值处理、识别孤立点、消除噪声和冗余、纠正数据中的不一致、剔除脏数据；所述数据转换包括按照数据挖掘分析的需求，将数据转化成适合于数据分析的结构，包括数据类型转换、离散化处理、数据维度变换。

5.根据权利要求1所述的一种面向电网调控的人工智能系统构建方法，其特征在于，所述主流开源算法框架包括Scikit-learn、PyTorch、TensorFlow、XgBoost、MXNet。

6.根据权利要求1所述的一种面向电网调控的人工智能系统构建方法，其特征在于，所述将机器学习AI模型构建和开发转变为图形化流程编排与执行包括：

7.根据权利要求1所述的一种面向电网调控的人工智能系统构建方法，其特征在于，所述对训练好的AI模型进行持久化存储并进行配置管理和版本化管理包括：

通过存储API将AI模型文件保存至分布式文件中；

8.一种采用如权利要求1-7任一项所述的一种面向电网调控的人工智能系统构建方法构建的人工智能系统，其特征在于，包括：

9.一种面向电网调控的人工智能系统构建装置，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1-7任一项所述方法的步骤。

10.计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。