CN114756611A

CN114756611A - 一种人工智能平台样本库管理方法及系统

Info

Publication number: CN114756611A
Application number: CN202210273197.0A
Authority: CN
Inventors: 窦国贤; 陈是同; 周伟; 邱镇; 黄晓光; 崔迎宝; 郭庆; 浦正国; 梁翀; 程琳; 余江斌; 张天奇; 吴小华
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Anhui Jiyuan Software Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Anhui Jiyuan Software Co Ltd
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-07-15

Abstract

本发明公开了一种人工智能平台样本库管理方法及系统，该方法包括：S1,接收海量电力业务数据和业务数据的数据描述信息；S2,根据数据描述信息获取针对业务数据的第一预处理方法集，基于第一预处理方法集中的至少一种预处理方法对电力业务数据进行预处理；S3,获取与业务数据关联的AI模型；S4,获取所述AI模型对于输入数据的格式规则信息，S5,加载与所述数据自身的格式规则对应的第二预处理方法对所述业务数据进行第二预处理，加载与所述标注数据的格式规则对应的数据标注方法对所述经过第二预处理的业务数据进行数据标注。本发明实现对分散在各业务系统中的大量样本数据的集中有效利用，在人工智能平台样本库中进行纳管。

Description

一种人工智能平台样本库管理方法及系统

技术领域

本发明涉及人工智能技术领域，具体涉及一种人工智能平台样本库管理方法及系统。

背景技术

人工智能是未来智能电网的核心部分，是构建高效、协同、互动、共享、“物-物-人”互联互通的能源互联网的重要手段，是电力系统发展的必然选择。

但现有技术中多种人工智能应用或人工智能支撑能力建设分散，缺乏总部层面的统一样本管理平台，导致不同系统间接口不统一，数据不便于共享，计算资源浪费较大，目前大量样本数据分散在各业务系统中，未能被有效利用，需要对各业务数据进行整理收集，并在人工智能平台样本库中进行纳管，形成高质量的样本数据和样本标签，为模型训练和迭代优化提供样本基础，深化电力人工智能平台样本库应用。

发明内容

针对上述现有技术存在的问题，本发明提供了一种人工智能平台样本库管理方法及系统，实现对各业务系统的业务数据的纳管，为模型训练和迭代优化提供样本基础。

该技术方案如下：

本申请第一方面实施例提出了一种人工智能平台样本库管理方法，包括如下步骤：

S1,接收海量电力业务数据和业务数据的数据描述信息；

S2,根据所述数据描述信息获取针对业务数据的第一预处理方法集，基于第一预处理方法集中的至少一种预处理方法对电力业务数据进行预处理；

S3,从人工智能平台的AI模型库中获取与所述业务数据关联的AI模型；

S4,获取所述AI模型对于输入数据的格式规则信息，所述格式规则包括数据自身的格式规则和数据携带的标注数据的格式规则；

S5,加载与所述数据自身的格式规则对应的第二预处理方法对所述业务数据进行第二预处理，加载与所述标注数据的格式规则对应的数据标注方法对所述经过第二预处理的业务数据进行数据标注；

S6,对业务数据进行第一预处理、第二预处理和数据标注后的结果分别存储。

在本申请一个实施例中，所述数据描述信息包括但不限于业务数据的应用场景和数据种类，所述数据种类包括图像、视频、语音、文本。

在本申请一个实施例中，所述S2,包括：

S21,根据电力业务数据的数据描述信息为所述电力业务数据推荐至少一种候选预处理方法，形成第一预处理方法集；

S22,根据历史电力业务数据采用的预处理方法组合策略，为所述电力业务数据推荐候选预处理方法组合；

S23,在确定采用“一键预处理”操作时，根据候选预处理方法组合中的最优组合项对所述电力业务数据自动执行一系列预处理操作，否则，在根据在所述第一预处理方法集中选择的至少一种预处理方法对电力业务数据进行预处理。

在本申请一个实施例中，所述S21,根据电力业务数据的数据描述信息为所述电力业务数据推荐至少一种候选预处理方法，形成第一预处理方法集，包括：

S211,基于电力业务数据的数据描述信息，根据预设的模糊规则表，获取所述电力业务数据适用的至少一种候选预处理方法，生成第一组第一预处理方法；

或

S212,基于电力业务数据的数据描述信息，确定所述数据描述信息下的历史电力业务数据的预处理方法执行频率分布数据，基于所述执行频率满足预设频率条件的预处理方法生成第二组第一预处理方法；

S213,基于第一组第一预处理方法和第二组第一预处理方法评估每个第一预处理方法适用于所述电力业务数据的置信度，基于所述置信度确定第一预处理方法集。

在本申请一个实施例中，所述S213,基于第一组第一预处理方法和第二组第一预处理方法评估每个第一预处理方法适用于所述电力业务数据的置信度，基于所述置信度确定第一预处理方法集，包括：

基于针对历史电力业务数据生成的第一组第一预处理方法和第二组第一预处理方法中，所述历史电力业务数据实际执行的预处理方法中属于第一组第一预处理方法和第二组第一预处理方法交集的第一概率以及分别属于第一组第一预处理方法或第二组第一预处理方法的第二概率；

针对当前电力业务数据生成的第一组第一预处理方法和第二组第一预处理方法的交集和非交集预处理方法，基于第一概率和第二概率确定第一组第一预处理方法和第二组第一预处理方法中每一个预处理方法适用于所述电力业务数据的置信度；

基于所述置信度符合预设置信度阈值范围的预处理方法确定第一预处理方法集。

在本申请一个实施例中，所述S3,从人工智能平台的AI模型库中获取与所述业务数据关联的AI模型，包括：

S31,获取与所述待分析业务数据呈显式关联关系的已关联AI模型的业务数据，基于所述呈显式关联关系的已关联AI模型的业务数据，确定所述待分析业务数据显式关联的AI模型，所述显式关联关系基于业务数据的相似性计算得到；

S32,获取与所述所述待分析业务数据呈隐式关联关系的AI模型；

S33,基于所述显式关联的AI模型和隐式关联关系的AI模型确定与所述业务数据关联的AI模型。

在本申请一个实施例中，所述S32，包括：

基于人工智能平台的AI模型库中存在的AI模型的输入和输出数据形成AI模型的语义特征；

基于所述语义特征与所述待分析业务数据的匹配关联性确定所述AI模型是否与所述待分析业务数据关联。

本申请第二方面实施例提出了一种人工智能平台样本库管理系统，包括：

海量电力业务数据汇总模块，用于接收海量电力业务数据和业务数据的数据描述信息；

第一预处理方法模块，用于根据所述数据描述信息获取针对业务数据的第一预处理方法集，基于第一预处理方法集中的至少一种预处理方法对电力业务数据进行预处理；

关联AI模型分析模块，用于从人工智能平台的AI模型库中获取与所述业务数据关联的AI模型；

第二预处理规则获取模块，用于获取所述AI模型对于输入数据的格式规则信息，所述格式规则包括数据自身的格式规则和数据携带的标注数据的格式规则；

第二预处理规则执行模块，用于加载与所述数据自身的格式规则对应的第二预处理方法对所述业务数据进行第二预处理，加载与所述标注数据的格式规则对应的数据标注方法对所述经过第二预处理的业务数据进行数据标注；

样本数据分类管理模块，用于对业务数据进行第一预处理、第二预处理和数据标注后的结果分别存储。

本申请第三方面实施例提出了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面实施例所述的人工智能平台样本库管理方法。

本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述第一方面实施例所述的人工智能平台样本库管理方法。

本发明的一种人工智能平台样本库管理方法及系统，具备如下有益效果：基于对接收的海量电力业务数据的预处理、数据标注、样本数据集管理操作，实现对分散在各业务系统中的大量样本数据的集中有效利用，对各业务数据进行整理收集，并在人工智能平台样本库中进行纳管，形成高质量的样本数据和样本标签，为模型训练和迭代优化提供样本基础，深化电力人工智能平台样本库应用。

附图说明

图1是本申请实施例中人工智能平台样本库管理方法的流程图；

图2是本申请实施例中人工智能平台样本库管理系统的结构图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本发明实施例提供了一种人工智能平台样本库管理方法，包括如下步骤：

S1,接收海量电力业务数据和业务数据的数据描述信息；

本申请实施例中，接收的海量电力业务数据，可以是基于本地数据上传得到的，也可以是基于数据中台数据接口(服务目录、Restful服务、WS服务等)传输得到的；针对电力业务海量的图像、语音、文本等结构化数据、非结构化数据，采用国网云平台的RDS数据库、OSS对象存储(或关系型数据库、HBase分布式存储系统)进行存储。平台存储数据属性信息包括名称、来源、类型、路径、业务属性、加工和标注比例、大小以及创建时间，并将源文件存储至分布式文件系统中。

同时，对于对采集到的图像、语音等业务数据提供规范化标注功能，遵循预设统一样本数据标注规范，支持对样本数据的自动标注以及手动打标操作，实现对数据进行专业化、规范化、精细化的标注。同时，支持多租户机制，支持不同用户共同完成数据的标注工作，实现电力业务的数据统一标注，为模型算法优化升级提供数据支撑，充分发挥数据价值。

另外，对标注后的样本数据，进行数据集管理，对样本数据进行训练集、测试集和验证集的管理操作。本申请中，对业务数据进行第一预处理后形成了样本数据，经过第二预处理和数据标注后得到带有标注数据的模型训练样本，基于该模型训练样本，基于在AI模型迭代训练过程中的不同使用，可分为训练集、测试集和验证集，本申请中，可以对训练集、测试集和验证集进行数据比例调整、交叉验证过程中进行多次重新划分样本、增加新样本等操作。

基于上述预处理、数据标注、样本数据集管理，实现对分散在各业务系统中的大量样本数据的集中有效利用，对各业务数据进行整理收集，并在人工智能平台样本库中进行纳管，形成高质量的样本数据和样本标签，为模型训练和迭代优化提供样本基础，深化电力人工智能平台样本库应用。

上述数据描述信息包括但不限于业务数据的应用场景和数据种类，所述数据种类包括图像、视频、语音、文本。

进一步的，上述S2,根据所述数据描述信息获取针对业务数据的第一预处理方法集，基于第一预处理方法集中的至少一种预处理方法对电力业务数据进行预处理，包括如下步骤：

本申请实施例中，数据预处理功能根据数据类型不同，提供相应的数据预处理方式，例如，针对图像类型的数据，可以采用的预处理方法有去噪、去雾、增强、平滑、锐化、采样等，针对语音类型的数据，可以采用的预处理方法有滤波、量化等，针对文本类型的数据，可以采用的预处理方法有字符替换、去除空格、文本脱敏等，本申请中可以进行单文件处理、一键操作多种操作模式。用户可以根据数据特性自定义数据预处理的方案。

进一步的，上述S21,根据电力业务数据的数据描述信息为所述电力业务数据推荐至少一种候选预处理方法，形成第一预处理方法集，包括：

或

本申请实施例中，基于三种方法生成适用于接收的电力业务数据的预处理方法集合，可以基于预设模糊规则表，在确定的电力业务数据应用场景和确定的数据类型情况下，对应一组预处理方法，也可以基于历史电力业务数据中采用的预处理方法中的高频执行方法确定一组预处理方法，也可以基于上述两种方法分别生成的预处理方法进行相互验证，评估各个预处理方法适用于所述电力业务数据的置信度，结合两种生成方法生成的预处理方法组，并经过评估，得到最佳的第一预处理方法集。

进一步的，上述S213,基于第一组第一预处理方法和第二组第一预处理方法评估每个第一预处理方法适用于所述电力业务数据的置信度，基于所述置信度确定第一预处理方法集，包括：

本申请实施例中，基于历史电力业务数据中预处理方法执行选项，确定同时属于两种预处理方法集合的预处理方法的实际被执行率以及分别独属于某一预处理方法集合中的预处理方法实际被执行率，针对历史数据中的被执行率记录，针对当前电力业务数据的基于两种生成方法生成的预处理方法集合，相互结合进行置信度评估，提高了第一预处理方法集对当前电力业务数据的精准适配性，进一步实现了对海量电力业务数据的预处理方法的归纳管理。

另外，对于上述S22,根据历史电力业务数据采用的预处理方法组合策略，为所述电力业务数据推荐候选预处理方法组合，具体的，可以采用类似上述步骤S212的方法，基于具有相同数据描述信息的历史电力业务数据采用的预处理方法组合策略，通过预处理方法组合策略被执行的频率，确定高频执行预处理方法组合策略作为当前电力业务数据推荐候选预处理方法组合，进一步的，在上述S23中，最优组合项，可以是被执行的频率最高的执行预处理方法组合策略。

另外，上述S22,还可以采用如下步骤实现：

基于当前电力业务数据，经过多种评价指标评价当前电力业务数据的质量，例如可以是图像数据的清晰度、图像/文本/语音数据的噪声数据大小、图像/文本/语音数据的数据有效性或者数据冗余性等等，得到电力业务数据质量评价数据，基于历史电力业务数据的数据质量评价结果和对应已执行的预处理方法，确定当前电力业务数据对应匹配的一种或者多种预处理方法，形成预处理方法组合策略。简单举例来说，若历史电力业务数据的噪声指标大于30％时，采用了降噪方法A，则在当前电力业务数据的噪声指标大于30％时，也可以采用降噪方法A。

进一步的，上述S3,从人工智能平台的AI模型库中获取与所述业务数据关联的AI模型，包括如下步骤：

进一步的，上述S32，获取与所述所述待分析业务数据呈隐式关联关系的AI模型，包括如下步骤：

S321，基于人工智能平台的AI模型库中存在的AI模型的输入和输出数据形成AI模型的语义特征；

S322，基于所述语义特征与所述待分析业务数据的匹配关联性确定所述AI模型是否与所述待分析业务数据关联。

本申请实施例中，不直接基于AI模型输入数据和待分析业务数据进行直接关联关系分析，而是基于AI模型的语义特征，在本申请中，语义特征表征模型的具体应用场景及应用效果，例如，存在一个AI模型的语义特征用于基于采集的输电线路图像分析输电线路故障，若待分析业务数据为杆塔图像、导线图像、防振锤图像等，则均可以与该AI模型关联。可以理解，基于上述步骤S4、S5处理后的业务数据和标注数据，可以作为训练样本应用于新的AI模型训练过程，该新的AI模型可以是原本的人工智能平台AI模型库中不存在的AI模型，即本申请中，基于对待分析业务数据的显式关联的AI模型和隐式关联关系的AI模型分析，可以进一步获取待分析业务数据可以应用的AI模型以及可能扩展应用的新的AI模型，并为该两类AI模型生成对应的训练样本。

本申请实施例中还提供了一种人工智能平台样本库管理系统，包括：

其中，需要说明的是，前述对人工智能平台样本库管理方法的解释说明也适用于本实施例的人工智能平台样本库管理系统，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

具体的，该电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述的人工智能平台样本库管理方法。

上述电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。

具体的，上述可读存储介质为存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使所述计算机执行前述的人工智能平台样本库管理方法。

本发明不局限于上述具体的实施方式，本领域的普通技术人员从上述构思出发，不经过创造性的劳动，所做出的种种变换，均落在本发明的保护范围之内。

Claims

1.一种人工智能平台样本库管理方法，其特征在于，包括：

S1,接收海量电力业务数据和业务数据的数据描述信息；

2.根据权利要求1所述的一种人工智能平台样本库管理方法，其特征在于，所述数据描述信息包括但不限于业务数据的应用场景和数据种类，所述数据种类包括图像、视频、语音、文本。

3.根据权利要求1所述的一种人工智能平台样本库管理方法，其特征在于，所述S2,包括：

4.根据权利要求书3所述的一种人工智能平台样本库管理方法，其特征在于，所述S21,根据电力业务数据的数据描述信息为所述电力业务数据推荐至少一种候选预处理方法，形成第一预处理方法集，包括：

或

5.根据权利要求4所述的一种人工智能平台样本库管理方法，其特征在于，所述S213,基于第一组第一预处理方法和第二组第一预处理方法评估每个第一预处理方法适用于所述电力业务数据的置信度，基于所述置信度确定第一预处理方法集，包括：

6.根据权利要求4所述的一种人工智能平台样本库管理方法，其特征在于，所述S3,从人工智能平台的AI模型库中获取与所述业务数据关联的AI模型，包括：

7.根据权利要求6所述的一种人工智能平台样本库管理方法，其特征在于，所述S32，包括：

8.一种人工智能平台样本库管理系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的人工智能平台样本库管理方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的人工智能平台样本库管理方法。