CN118035910A

CN118035910A - 面向新型电力系统的电网资源聚类预警方法、系统、设备及存储介质

Info

Publication number: CN118035910A
Application number: CN202410114805.2A
Authority: CN
Inventors: 陈龙; 罗玲; 吕顺利; 李盛盛; 马欢; 国中琦; 刘峻珲; 佘运波; 施康; 牛紫阳
Original assignee: Super High Voltage Branch Of State Grid Anhui Electric Power Co ltd; Nari Information and Communication Technology Co; State Grid Electric Power Research Institute
Current assignee: Super High Voltage Branch Of State Grid Anhui Electric Power Co ltd; Nari Information and Communication Technology Co; State Grid Electric Power Research Institute
Priority date: 2024-01-26
Filing date: 2024-01-26
Publication date: 2024-05-14

Abstract

本发明公开了一种面向新型电力系统的电网资源聚类预警方法、系统、设备及存储介质。方法包括：多源多模态电网资源数据汇聚；数字化转换形成向量化表示；聚类分析；基于聚类中心变动距离的离群点检测；构建多元故障空间；多维聚类空间预警研判；维度缺失故障信息处理；提交用户综合研判。本发明充分发挥新型电力系统数据价值，在故障发生前对电网资源隐患进行识别、预警和及时处置，建立了以预防为主的电网资源主动预警模式；基于电网数字化空间和多元故障空间，提出了电网资源聚类分析预警方法，提升了电网资源预警研判的及时性和准确性；有效辅助各级电力公司制定电网抢修决策，提升用户的用电体验，对提高电网供电可靠性具有重要现实意义。

Description

面向新型电力系统的电网资源聚类预警方法、系统、设备及存储介质

技术领域

本发明涉及电网数字化技术领域，尤其涉及一种面向新型电力系统的电网资源聚类预警方法、系统、设备及存储介质。

背景技术

近年来，随着新型电力系统建设的持续推进，电源结构和电网结构不断深化调整，电网资源规模日益庞大，电力系统的运行特性发生了重大改变，系统安全形势更加严峻。因此，对海量电网资源的日常管理提出了更高的标准和需求，但目前电网资源运维体系只是实现了事后报警和实时告警，并未实现主动预警，缺乏在新型电力系统各类电网资源出现隐患和异常时就对其进行预警的能力，缺乏解决隐患的能力，缺乏配套的管理体制。此外，随着新型电力系统的建设和发展，大量数据不断生成和积累，但目前对只有一些最基础的分析手段，未能实现电网资源数据价值。当电网资源存在隐患时，预警研判的快速性、准确性和隐患处理的及时性不仅影响到用户的用电体验和利益，还关系到供电公司的经营业绩与服务水平。实现面向新型电力系统的电网资源聚类预警主动预警，可以对电网资源海量运行数据进行有效分析挖掘，在故障发生之前实现故障定位、故障分析及故障预警，提升电网资源运维效率，保障电网安全稳定运行。

目前在电网资源预警方面还存在着以下不足：

一、尚未实现以预防为主的主动预警模式。目前主要采取在故障发生之后进行告警和抢修的被动运维模式，这种模式导致电网资源运维人员将日常大部分时间和精力都花在处理简单且重复的“被动救火”问题上，不但事倍功半而且常会出现恶性连锁反应。目前缺乏在故障发生之前对电网资源进行提前预警的能力，缺乏对运维隐患进行定位和分析的能力，亟需实现以预防为主的主动运维模式。

二、电网资源单一静态阈值预警方法适应性不足。电网是一个复杂多变的系统，当各类电网资源的场景和状态发生变化时，采用单一静态阈值的预警方式，存在一定的局限性，即阈值设定过小，易误报；阈值设定过大，易漏报。这就导致了常规预警模式不能准确的实现电网资源的主动预警，并且可能会导致频繁的误报，增加了预警处理的成本和工作量，亟需实现电网资源聚类预警，以适应新型电力系统对电网资源预警的需求。

三、电网资源聚类预警缺少多维度分析方法。目前的电网资源聚类预警方法往往缺少多维度分析方法，即只考虑了少数几个方面或维度，缺少多维度分析方法可能导致预警的准确性不足。如果只基于少数几个维度进行聚类分析和预警，可能会出现误判或漏判的情况，无法准确地捕捉到电网资源的异常情况因此。对电网资源数据进行进行聚类后，需要多维度分析方法。

综上所述，本领域技术人员急需要解决以上电网资源预警中的技术问题。

发明内容

发明目的：本发明的目的在于提供一种面向新型电力系统的电网资源聚类预警方法，解决背景技术中的问题。

本发明还提供一种面向新型电力系统的电网资源聚类预警系统、计算机设备和计算机存储介质。

技术方案：第一方面，一种面向新型电力系统的电网资源聚类预警方法，所述方法包括：

融合多源多模态电网资源数据并进行数字化转换，形成向量化表示的数字资源，分为已标记的正常运行数据、已标记的运行异常数据、未标记的运行数据；

使用K-means聚类算法对未标记的运行数据进行聚类分析，并基于聚类中心变动距离进行离群点检测，识别出异常数据；

对识别出的异常数据和已标记的运行异常数据再次进行聚类，构建初始故障空间，将初始故障空间中满足多元故障空间融合初始研判规则的集合进行融合，完成多元故障空间融合；

根据多元故障空间融合后的数据，将聚类空间分为重要维度和普通维度，分别计算重要维度和普通维度的预警阈值，并计算所有维度融合预警评价值，根据相应维度预警阈值和所有维度融合预警评价值进行多维聚类空间的预警研判。

进一步地，

进一步地，多源多模态电网资源数据包括结构化数据和非结构化数据，对结构化数据进行数字化转换包括：

将v个结构化数据{a₁,a₂,…,a_v}转化为r个c维向量，表示为b₁＝[a₁,a₂,…,a_c]，b₂＝[a_c+1,a_c+2,…,a_2c],…,b_r＝[a_(r-1)c+1,…,a_v,0,…,0]，其中，(r-1)c<v≤rc；

将非结构化数据也转化为c维向量；

向量的维度c根据以下向量维度计算公式得到：

其中，S_i是电网数字化资源中第i个资源的结构化数据数量与非结构化数据中词数量的总和，N是电网资源的数量，表示四舍五入取整。

可选地，K-means算法的k值通过聚类边缘系数法确定，包括：

对于每个簇中的每个样本点h_i，计算样本点h_i到与其属于同一个簇的其他样本点的距离的平均值a(i)；

选取h_i外的其他簇G_j，计算h_i与G_j中所有样本的距离的平均值b_ij，遍历所有其他簇，找到平均距离的最小值，记作b(i)，b(i)＝min(b_i1,b_i1,…,b_ik)；

按下式计算所有样本点d_i的聚类边缘系数：求出平均值即为当前k值下聚类的整体聚类边缘系数S，S∈[-1,1]；

选取聚类边缘系数最大的值对应的k作为最终簇的数目。

可选地，K-means算法的k值通过聚类误差分析法确定，包括：

在聚类中心稳定后，设定一个k值的可能取值集合，记为K＝{K₁,K₂,…,K_n}，K₁到K_n按从小到大的顺序排列，计算聚类的整体误差：

其中，P为聚类的整体误差；c_j表示第j个簇的聚类中心；e_j表示第j个簇中样本点的个数；j取值为1到K；d_jl表示第j个簇中第l个样本点的值；l取值为1到e_j；

通过对P值趋势的判断选出合适的k值：

其中，k值取K_i时，P_i为聚类的整体误差；α为判定系数；k值取K_a时，P_a为聚类的整体误差；不断增大a的值，当上式满足要求时，选择出满足该式子的最小的a值对应的k值。

优选地，K-means算法的k值通过聚类边缘系数法和聚类误差分析法的融合算法确定：

其中，Q为融合算法选出的k值；A为聚类边缘系数法选出的k值；B为聚类误差分析法选出的k值；P_A表示k值为A时，聚类的整体误差；P_B表示k值为B时，聚类的整体误差。

进一步地，基于聚类中心变动距离进行离群点检测包括：

记g_m是经过聚类后类G_m的聚类中心，依次将属于类G_m的实例h_a去掉后计算新的聚类中心与g_m之间的距离d_ma，使用剔除实例的聚类中心变动距离算法衡量该实例对聚类中心的影响程度，剔除实例的聚类中心变动距离算法公式如下：

其中，是去掉h_a后属于g_m的所有实例，h_b是属于/>的所有实例；

将计算得到聚类中心变动距离按照升序排序后得到{d^′ _m1,d^′ _m2,…,d^′ _mn}，对属于类G_m的实例h_a对应的聚类中心变动距离d_ma，判断是否满足以下公式，将满足该公式的实例识别为离群点：

其中，d_ma表示去掉属于类G_m的实例h_a后对应的聚类中心变动距离，n是该聚类中实例的个数，d^′ _mn表示聚类中心变动距离按照升序排序后的最大值，d^′ _mi表示聚类中心变动距离按照升序排序后第i个变动距离，α₁、α₂是权重。

进一步地，多元故障空间融合初始研判规则如下：

其中，r_i和r_j分别为故障类G_i与G_j的密集半径，R_i和R_j分别为故障类G_i与G_j的容忍半径，ρ_im和ρ_jm为故障数据h_m分别到故障类G_i与G_j的距离，ρ_ij为故障类G_i与G_j的聚类中心g_i、g_j之间的距离，t₀为当前时间，t_p为故障数据的生成时间，β为可设置的阈值；

多元故障空间融合的公式如下：

式中：x表示需要同时进行融合的集合的个数，|G_i|表示故障类G_i中样本的个数，g_i为聚类中心，g′为x个集合融合后的聚类中心。

进一步地，故障类容忍半径的确定方法如下：

记故障类别为G_i，计算属于故障类G_i中所有的故障数据h_j到聚类中心g_i的距离ρi_j并升序排序，将前指定百分比距离数值较小的ρ_ij取平均值记为故障类的密集半径r_i，将剩下的距离数值较大的ρ_ij取平均值并加上r_i记为故障类的容忍半径R_i，即/> ε为调整权值。

进一步地，对于重要维度，按下式计算预警阈值：

其中，R_max为重要维度的预警阈值；r_max、r_min分别为该维度n个数据中的最大值、最小值；r_i表示该重要维度第i个数据；

对于普通维度，按下式计算预警阈值：

其中，T_max为普通维度的预警阈值；t_max、t_min分别为该维度m个数据中的最大值、最小值；t_i表示该普通维度第i个数据；

对于所有维度融合预警评价值，按下式确定：

其中，Q_i为第i个重要维度的预警评价值；Early warning表示直接预警；W_j为第j个普通维度的预警评价值；为第i个重要维度的数据集合；T_j为第j个普通维度的数据集合；R_imax表示第i个重要维度的数据集合的预警阈值；T_jmax表示第j个普通维度的数据集合的预警阈值。

进一步地，进行多维聚类空间的预警研判包括：

根据预警评价值将重要维度与普通维度预警区间各分为三个部分，分别对应红色预警预警区间、橙色预警区间、正常黄色预警区间；

重要维度数据超过红色预警区间的阈值时，直接预警；对于其他情况，判断是否满足以下公式，若满足则发出预警：

其中，q为重要维度个数，w为普通维度个数，γ为预设的预警系数。

进一步地，所述方法在进行多维聚类空间的预警研判之前还包括：识别电网资源数据中缺失的维度，使用面向维度缺失的故障研判算法计算缺失的实时电网资源数据与聚类中心的距离，并研判该实时数据是否处于故障空间中，对于不在故障空间中的实时数据，不进行多维聚类空间的预警研判，其中面向维度缺失的故障研判算法如下：

其中，P_j(y_i＝m|x_i)表示待研判数据x_i归属第j个聚类中心的概率，m表示共有聚类中心的个数，g_j为第j个聚类中心；ignore表示无效信息，Z为电网资源数据总维度；若P_j大于指定阈值，则该实时数据可与第j个类聚集，处于故障空间中；否则该实时数据不处于故障空间中，不进行研判。

第二方面，提供一种面向新型电力系统的电网资源聚类预警系统，所述系统包括：

数据预处理模块，融合多源多模态电网资源数据并进行数字化转换，形成向量化表示的数字资源，分为已标记的正常运行数据、已标记的运行异常数据、未标记的运行数据；

初步异常识别模块，使用K-means聚类算法对未标记的运行数据进行聚类分析，并基于聚类中心变动距离进行离群点检测，识别出异常数据；

故障空间融合模块，对识别出的异常数据和已标记的运行异常数据再次进行聚类，构建初始故障空间，将初始故障空间中满足多元故障空间融合初始研判规则的集合进行融合，完成多元故障空间融合；

预警研判模块，根据多元故障空间融合后的数据，将聚类空间分为重要维度和普通维度，分别计算重要维度和普通维度的预警阈值，并计算所有维度融合预警评价值，根据相应维度预警阈值和所有维度融合预警评价值进行多维聚类空间的预警研判。

第三方面，提供一种计算机设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如本发明第一方面所述的面向新型电力系统的电网资源聚类预警方法的步骤。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面所述的面向新型电力系统的电网资源聚类预警方法的步骤。

有益效果：

(1)本发明建立了以预防为主的电网资源主动预警模式。通过将电网中多源多模态资源数据统一汇聚和有效融合，结合基于大数据的电网资源动态阈值预警研判策略，打破了以往在电网资源故障发生后再告警和抢修的被动管理模式，实现了在故障发生前就对电网资源隐患进行识别、预警和及时处置的主动预警模式。

(2)本发明提出了电网资源聚类分析预警方法。优化了数字资源的聚类分析算法体系，并以此为基础设计了多维聚类空间预警研判方法，在构建多元故障空间的基础上，通过对多个维度进行聚类分析，并将聚类结果进行融合研判，用聚类的方法实现了电网资源的合理预警，提高了电网资源预警的准确性。

(3)本发明设计了电网资源聚类预警多维度分析方法。在考虑多个维度的基础上，首先用优化后的聚类算法对电网数字资源进行分析，并通过基于聚类中心变动距离的离群点检测，剔除离群点。在每个维度构建多元故障空间的基础上，对多维聚类空间进行预警研判，使电网资源聚类预警更加全面，有效辅助用户决策。

附图说明

图1是本发明方法整体流程图；

图2是数字资源的聚类分析流程图；

图3是多维聚类空间预警研判示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

实施例1：

本实施例提供一种面向新型电力系统的电网资源聚类预警方法，为提高电网资源稳定性和电网供电可靠性，围绕故障发生之后进行告警和抢修的被动运维模式造成损失大、静态阈值难以适应复杂动态预警研判需求、电网资源阈值设置准确性不足、故障溯源不清晰、影响范围不准确、原因判断不智能等问题，汇集新一代调度技术支持系统、新一代集控站系统、配电自动化系统、变电自动化系统、用电信息采集系统、营销业务应用系统、电网资源业务中台、数据中台、新一代设备资产精益管理系统等管理系统的输电网主要一次电力设备、配电网主要架空类一次电力设备、配电网主要站内一电力次设备、配电网主要低压一电力次设备、电网主要控制系统、继电保护及安全自动装置、电网主要在线检测类设备、电网主要自动化设备、电网主要通信类设备等电网资源的多源多模态数据，建立以预防为主的电网资源主动预警模式，实现了在故障发生前就对电网资源隐患进行识别、预警和及时处置的主动预警模式。本发明提出了聚类分析研判策略，实现了电网资源聚类预警；设计了电网资源聚类预警融合算法，提高了电网资源聚类预警研判的准确率。进一步的，提升电网资源预警研判准确性、减少电网故障数量、提高供电可靠性，保障新型电力系统安全稳定运行。

参照图1，本实施例提供的一种面向新型电力系统的电网资源聚类预警方法，包括如下步骤：

S01：对多源多模态电网资源数据进行汇聚处理，得到融合后的电网资源预警研判所需的数据。

目前，所述电网资源多源多模态数据的数据源端包括：新一代调度技术支持系统、新一代集控站系统、配电自动化系统、变电自动化系统、用电信息采集系统、营销业务应用系统、电网资源业务中台、数据中台、新一代设备资产精益管理系统等。

其中，所述电网资源多源多模态数据包括：(1)输电网主要一次电力设备，具体包括：变压器、母线、发电机、变压器绕组、断路器、刀闸、接地刀闸、负荷、并联电抗器、并联电容器、串联电抗器、串联补偿装置、并联补偿装置、电流互感器、电压互感器、避雷器、阻波器、结合滤波器、滤波电容器、交流滤波器、消弧装置、接地电阻、平波电抗器、直流滤波器、换流阀、换流变压器、直流电压互感器、直流电流互感器、直流断路器、直流隔离开关、直流接地刀闸、直流避雷器、接地极、直流阻波器、直流母线。(2)配电网主要架空类一次电力设备，具体包括：柱上变压器、柱上断路器、柱上负荷开关、柱上隔离开关、柱上重合器、柱上跌落式熔断器、线路避雷器、线路故障指示器、柱上电容器、柱上电压互感器、柱上电流互感器、柱上分段器。(3)配电网主要站内一电力次设备，具体包括：配电变压器、所用变、接地变、断路器隔离开关、负荷开关、熔断器、跨接线、母线、电抗器、电流互感器、电压互感器、电力电容器、避雷器、接地电阻、故障指示器、站内电缆、交流滤波器。(4)配电网主要低压一电力次设备，具体包括：低压柱上开关、低压柱上熔断器、低压熔丝、低压柱上电容器、低压无功补偿装置、低压柱上避雷器、低压表箱、低压熔丝箱、墙支架、低压配电箱、低压剩余电流保护器、低压电缆分接箱、低压电缆终端箱、低压电容器、低压开关、低压母线、低压配电盘、低压开关柜、低压电力电子设备、低压储能装置、反孤岛装置。(5)电网主要控制系统、继电保护及安全自动装置，具体包括：换流站控制系统、故障录波器、保护故障信息系统子站、继电器、换流站保护系统、换流站控制保护系统、交流保护装置、直流系统保护装置、安全自动装置。(6)电网主要在线检测类设备，具体包括：杆塔监测类、导线监测类、气象环境监测类、输电视频/图像监测、变压器/电抗器/换流变监测类、电容型设备监测类、金属氧化物避雷器监测类、断路器/GIS监测类、变电视频/图像监测、电缆本体监测类。(7)电网主要自动化设备，具体包括：自动化系统、远动终端设备(RTU)、远动终端设备(FTU)、远动终端设备(DTU)、远动终端设备(TTU)、电能量远方终端、相量测量装置、二次系统安全防护设备、时钟同步装置、计算机设备、存储设备、电源设备、远动采集设备、电能采集设备、调度模拟屏、大屏幕。(8)电网主要通信类设备，具体包括：通信机房、通信机柜、通信光缆、通信光缆段、通信光路、通信机房、通信电源、传输系统、PCM接入系统、终端通信接人系统、电力载波机、数据网、交换网、通信网管系统。(9)其他电网资源，具体包括历史数据、电网资源模型等。

通过对电网资源多源多模态数据的标准化融合处理，解决了电网资源规模大、范围广、位置分散，数据源端多的技术问题。标准化融合处理是指对多源数据融合后进行标准化处理。标准化指将数据按比例缩放，使之落入一个小的特定区间。利用常用的标准化方法去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。根据融合目的和融合层次智能地选择合适的融合算法，通过融合来自多种设备的数据和相关信息，实现更准确的判断。

S02：电网资源的数字化转换，在面向电网资源风险主动预警的聚类分析中需要不断的调整参数矩阵，使预测结果越来越准确，原始的结构化与非结构化数据不能直接参与训练过程，所以需要将电网资源进行数字化转换，并提取实体中的特征向量作为本方法的输入。

1)电网资源中结构化数据的数字化转换

首先，将电网资源数据中v个结构化数据{a₁，a₂，...，a_v}转化为向量有两种方法，一是将所有数据直接转换为一个向量b＝[a₁，a₂，...，a_v]，将独立的一组数转化成v维向量的形式；二是转换为若干个c维向量，由于要和非结构化数据转化成的向量一起输入神经网络，所以要保证向量维度的一致性，以免机器学习过程中出现数据格式不匹配，导致数据丢失。所以选择将结构化数据转化成r个c维向量。即b₁＝[a₁，a₂，...，a_c]，b₂＝[a_c+1，a_c+2，...，a_2c]，…，b_r＝[a_(r-1)c+1，...，a_v，0，...，0]。b_r中，由于一共有v个数据，前r-1个c维向量已经排列(r-1)c个数据，因此a_(r-1)c+1，...，a_v为剩下的数据，没排列满的向量空数据记为0。其中，(r-1)c＜v≤rc，向量的维度根据向量维度计算公式得到，后续步骤需要保持前后维度一致，将非结构化数据也转化为c维向量。当选取的维度过低时，向量表示将有较大的偏差，因为较低的维度丢失了较多信息。而维度过高时，向量表示将容易出现过拟合，其中夹杂了大量的噪音。结构化的一系列数值可直接转为向量，非结构化数据需要进一步处理。本发明实施例中的向量维度计算公式如下：

2)电网资源中非结构化数据的数字化转换

电网数字化资源中非结构化数据不能直接转化为向量，非结构化数据，例如电子邮件、网站、媒体(数码照片、音频文件、视频文件)，所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等，本发明以最常见的文本为例，使用词嵌入和词性标注嵌入的拼接来获取非结构化数据的初始输入向量。其他类型的数据可以寻找相应的方法来进行向量化。

在单词特征表示层中，句子s_i中的每个单词w_ij都会映射到一个向量v_ij。为了获得更有效的特征表示，通过连接以下两种类型的向量来生成最终的单词向量v_ij。

(2-1)词嵌入：是一种将词转换成数字向量的方法，为了使用标准机器学习算法来对它们进行分析，就需要把这些被转换成数字的向量以数字形式作为输入。词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量，经常同时出现的词会映射到向量空间的相近位置，词嵌入的结果就生成了词向量。

Word2Vec是一种高效训练词向量的模型，将一个个的词给编码成向量，这些编码而成的向量并不是随便生成的，而是能够体现这些单词之间的关系，此处使用预先训练好的Word2Vec模型来获得词嵌入。

(2-2)词性标注嵌入：词性标注即在给定的句子中判定每个词最合适的词性标记。词性标注的正确与否将会直接影响到后续的句法分析、语义分析，是信息处理的基础之一。将语料库中的单词按词性分类。一个词的词性由其在所属语言的含义、形态和语法功能决定。词性标注就是在给定句子中判定每个词的语法范畴，确定其词性并加以标注的过程。通俗地讲，就是对句子进行分词后，在句子中的分词后标上词的性质如名词(n)、动词(v)等等。词性标记通常包含大量的句法信息，可以为电网数字化资源建模提供重要信息。使用斯坦福CoreNLP模型获取句子中每个单词的词性标注，并将其转换为实值向量。

(2-3)词嵌入和词性标注嵌入拼接

将词嵌入和词性标注嵌入的结果进行拼接，得到句子中每个单词w_ij的初始单词表示V_ij如下：

V_ij＝[q_ij，P_ij]

其中，单词w_ij是非结构化数据中第i个句子的第j个单词，q_ij表示单词w_ij的词嵌入向量，p_ij表示单词w_ij的词性标注嵌入向量。

S03：数字资源的向量化表示

将每个电网数字化资源数据D_i＝[H′₁，...，H′_L，b₁，...，b_r]＝[d₁，d₂，...，d_L+r]都作为构建情节中支持集和查询集的实例，{H′₁，...，H′_L}是非结构化数据中L个句子的向量表示，{b₁，...，b_r}是结构化数据转换成的r个向量。

在数字化建模的过程中，大多数现有的方法属于监督学习的范畴，它们的性能在很大程度上取决于标记样本的数量和质量。其面临的挑战是，由于手动标记的高成本，在实际应用中无法提供大规模高质量的训练集。其次，现有方法训练过程中处理没有出现或只有少数实例的新类别问题时较为困难。机器学习研究的传统模式是获取特定任务的庞大数据集，并利用该数据集从头开始训练模型。然而当场景发生改变的时候，模型就需要重新训练。为了解决这些问题，机器学习界提出了一种称为“元学习”的方法，获取一种“学会学习”的能力，使其可以在获取已有“知识”的基础上快速学习新的任务。当标记数据有限时，基于元学习能够很好地实现小样本学习任务，克服样本数较少的问题来完成分类或回归任务。在样本数较少的研究中使用基于元学习思想的小样本学习方法可以得到更好的效果，因此根据数字化建模的样本情况。

元学习(Meta-learning)，又称为learn-to-learn，该方法的核心思想是通过在元训练(Meta-train)阶段构建大量的情节(episodes)，即构建大量的元任务(Meta-tasks)进行学习，获得元知识，并利用元知识提高模型的泛化能力，使得模型可以在不同的情节中学习到元任务的共性并忽略掉元任务中与具体任务相关的部分。训练阶段完成后，再将训练好的模型在元测试(Meta-test)中进行性能的测试，在元测试中允许数量较少的新类别出现，即测试时使用的类别没有出现在元训练中。

小样本元学习中每个情节都包含一个支持集和一个查询集。而每个支持集是由训练集中选取C个类别，并分别从C类别中抽取K个样本共C×K个样本构成，每个查询集从训练集中选取O个不属于训练集中已经选择的C类别的样本。元测试阶段数据集的构成方式与元训练阶段相同，不过其中元测试阶段选取的类别不能与元训练阶段选取的类别重叠。此时，该小样本元学习被称为C-way-K-shot问题。

需要说明的是，本方法在第一步进行多源多模态数据融合，说明数据量大，但并不表示同一类型数据的样本多，因此，本发明采用小样本元学习方法利用Bi-LSTM训练出将实例转换为空间向量的映射函数f_θ(·)。利用LSTM对序列向量进行建模存在一个问题：无法编码从后到前的信息。在更细粒度的分类时需要注意序列向量前后之间的交互。通过将前向的LSTM与后向的LSTM结合运用的Bi-LSTM模型可以更好的捕捉双向的语义依赖。将电网数字化资源数据D_i的d_j(1≤j≤L+r)依次分别输入到前向LSTM模型和后向LSTM模型中，在两个方向的LSTM模型中计算隐藏状态，将前后向LSTM生成的最终隐藏状态拼接起来作为电网数字化资源数据D_i的最终向量表示D^′ _i：

其中，表示前向LSTM模型，顺序的输入序列向量；/>表示后向LSTM模型，反向的输入序列向量。

S04：数字资源的聚类分析。

每个电网数字化资源都可以用最终向量D^′ _i表示，可以分为已标记的正常运行数据、已标记的运行异常数据、未标记的运行数据，先将未标记的运行数据进行聚类分析，初步处理后找到正常运行数据中有异常的数据。

聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程，聚类就是一种发现这种内在结构的技术。K-means算法是最著名的划分聚类算法，由于简洁和效率使得他成为所有聚类算法中最广泛使用的。它基于给定的聚类目标函数，算法采用迭代更新的方法，每一次迭代过程都是向目标函数减小的方向进行，最终聚类结果使得目标函数取得极小值，达到较好的分类效果。

在本发明中，使用轮廓系数来评价k不同值时的聚类效果，最后选取轮廓系数最大的值对应的k作为最终的集群数目，k-means会将历史日数据聚合成k簇。如图2所示，具体步骤如下：

(1)选择相互之间距离最远的k个点作为聚类初始点。

(2)针对数据集中每个样本h_i计算它到k个聚类中心的欧式距离并将其分到距离最小的聚类中心所对应的簇中。根据以下算法进行欧式距离ρ_ij的计算：

其中，h_i是数据集中的每个样本的向量表示，g_j为聚类中心，i为第i个相似日，j为第j个聚类中心。

(3)针对每个类G_i，重新计算它的聚类中心g_i，通过以下算法计算属于该簇的所有样本的质心作为新的聚类中心。

其中，G_i是经过聚类形成的簇，|G_i|表示簇G_i中样本的个数，h表示簇G_i中的样本。

(4)重复上述2、3步骤，直到聚类中心稳定。

对k值的选取方法如下：

1)聚类边缘系数法

通过上述步骤可以计算出当前k值时的聚合簇。K-means算法对k值敏感，不同的k值会导致不同的聚合效果。此时就要使用聚类边缘系数来评价k不同值时的聚类效果，最后选取聚类边缘系数最大的值对应的k作为最终的集群数目。

聚类边缘系数结合了聚类的凝聚度和分离度，用于评估聚类的效果。对于每个簇中的每个样本点h_i，分别计算其聚类边缘系数。具体地，需要对每个样本点h_i计算以下两个指标：

a(i)：样本点h_i到与其属于同一个簇的其他样本点的距离的平均值。a(i)越小，说明该样本属于该类的可能性越大，用于量化簇内的凝聚度。

b(i)：选取h_i外的其他簇G_j，计算h_i与G_j中所有样本的距离的平均值b_ij，遍历所有其他簇，找到平均距离的最小值，记作b(i)，b(i)＝min(b_i1,b_i1,…,b_ik)，用于量化簇之间的分离度。

样本点d_i的聚类边缘系数为：

计算所有样本点d_i的聚类边缘系数，求出平均值即为当前k值下聚类的整体聚类边缘系数S，度量数据聚类的紧密程度。S∈[-1,1]，S越接近1，聚类效果越好。

最后选取聚类边缘系数最大的值对应的k作为最终簇的数目，并将k个簇固化。设选出的k值为A。

2)聚类误差分析法

在聚类中心稳定后，设定一个k值大概的取值的集合，记为K＝{K₁,K₂,…,K_n}，K₁到K_n按从小到大的顺序排列。计算聚类的整体误差：

其中，P为聚类的整体误差；c_j表示第j个簇的聚类中心；e_j表示第j个簇中样本点的个数；j取值为1到K；d_jl表示第j个簇中第l个样本点的值；l取值为1到e_j。

通过对P值趋势的判断选出合适的k值。

其中，k值取K_i时，P_i为聚类的整体误差；α为判定系数，可根据实际情况自行选择；k值取K_a时，P_a为聚类的整体误差；不断增大a的值，当上式满足要求时，选择出满足该式子的最小的a值对应的k值。设选出的k值为B。

3)聚类k值选择融合算法

因为k-means算法本身追求的就是对于每个簇而言，其簇内差异小，而簇外差异大，因此可以通过聚类边缘系数法计算簇内外相似度来确定k值，平衡内外差异。同时，k值与聚类整体误差P之间关系存在一个转折点，在达到这个转折点之前，增大k值对误差P的大小影响很明显，但超过转折点之后，影响就会减弱，这时再增大k值只会增加工作量，因此可以通过聚类误差分析找到转折点的k值作为最优。本发明实施例中融合两种算法来优选k值，完成聚类。

S05：基于聚类中心变动距离的离群点检测。

对属于g_m的电网数字化资源，存在某些分类不准确的情况，将使用基于聚类中心变动距离的离群点识别与标记策略，具体步骤如下：

g_m是经过聚类后类G_m的聚类中心，依次将属于类G_m的实例h_a去掉后计算新的聚类中心与g_m之间的距离d_ma，使用剔除实例的聚类中心变动距离算法衡量该实例对聚类中心的影响程度，当变动距离过大则认为该实例可能属于离群点，剔除实例的聚类中心变动距离算法公式如下：

其中，是去掉h_a后属于g_m的所有实例，h_b是属于/>的所有实例。

将计算得到聚类中心变动距离按照升序排序后得到{d^′ _m1,d^′ _m2,…,d^′ _mn}，对属于类G_m的实例h_a对应的聚类中心变动距离d_ma使用基于聚类中心变动距离的阈值确定算法，若满足该公式则认为该实例为离群点。基于聚类中心变动距离的阈值确定算法如下：

其中，d_ma表示去掉属于类G_m的实例h_a后对应的聚类中心变动距离，n是该聚类中实例的个数，d^′ _mn表示聚类中心变动距离按照升序排序后的最大值，d^′ _mi表示聚类中心变动距离按照升序排序后第i个变动距离，α₁、α₂是权重，α₁＝2,α₂＝1为默认值，用户可根据实际情况进行调整。

当部分实例对应的聚类中心变动距离超过基于聚类中心变动距离的阈值时，则将这部分实例标记为离群点，之后将离群点提交用户研判，用户可根据实际情况，调整离群点为常规点。检测出来的离群点表示是异常数据。

S06：构建多元故障空间。

1)构建初始故障空间

在步骤S04中构建的电网资源空间中，如果将所有正常运行数据和故障故障一起分析，可能会导致部分故障数据与正常数据区分度较小，也会在后续的故障预警中进行多次无用的判断，将故障预警信息直接与历史故障信息进行匹配，可以加快故障预警速度和提高预警准确率。所以需要将S05步骤中经过基于密度的局部离群点检测得到的异常数据和已标记的运行异常数据再次进行聚类，构建初始故障空间，得到电网资源故障模型。初始故障空间由电网资源空间在故障信息处理方面细化而来，专职对故障信息的分析处理与匹配。

2)多元故障空间融合初始研判

因为一个故障可能会由多个异常数据和相似数据导致，这些数据在初始故障空间中并不会表现出良好的聚类特性，会出现分散在周围形成多个聚类。即可能会出现多个欧式距离临近的聚类导致同一个故障，但并不归属于同一个聚类的情况发生，那么就需要使用多元故障空间融合初始研判方法将这些导致同一故障的临近聚类融合成一个聚类。此处多元指的是聚类形成的不同故障类。

计算属于故障类G_i中所有的故障数据h_j到聚类中心g_i的距离ρ_ij并升序排序，将前一定百分比(例如，80％)距离数值较小的ρ_ij取平均值记为故障类的密集半径r_i，将剩下的(例如，20％)距离数值较大的ρ_ij取平均值并加上εr_i记为故障类的容忍半径R_i，即ε＝2为默认值，用户可根据实际情况自行配置。

当故障类G_i与G_j中的部分故障数据点满足如下条件，认为G_i与G_j的故障接近，可以使用多元故障空间融合初始研判规则进行判断，当满足以下全部规则时可以将故障类G_i与G_j进行融合。多元故障空间融合初始研判规则如下：

其中，r_i和r_j分别为故障类G_i与G_j的密集半径，R_i和R_j分别为故障类G_i与G_j的容忍半径，ρ_im和ρ_jm为故障数据h_m分别到故障类G_i与G_j的距离，ρ_ij为故障类G_i与G_j的聚类中心g_i、g_j之间的距离，t₀为当前时间，t_p为故障数据的生成时间，β可由用户根据实际情况自行配置，当短时间多次出现故障数据超过阈值β，则认为G_i与G_i的故障接近可以融合。

3)多元故障空间融合

将满足了多元故障空间融合初始研判规则的集合进行融合，使用多元故障空间融合算法，公式如下：

通过构建初始故障空间，再进行多元故障空间融合，可以有效地区分故障数据与正常数据，防止在后续的故障预警中进行多次无用的判断。

S07：多维聚类空间预警研判。

由于电网资源复杂多变，在步骤S03电网资源的向量化表示中，将电网资源数据形成了多个维度，在步骤S04对电网资源聚类时，就形成了多维度的聚类空间。所述的多维度是指评价同一个电力设备的不同指标，如电压、电流、功率等。本发明将不同维度进行划分，形成了多维聚类空间预警算法。假设有N个维度，其中q个重要维度，w个普通维度，重要维度和普通维度的划分一般根据是否为电网设备的重要参数或指标来确定，可以根据实际情况来划分，本发明对此不做限制。如图3所示，多维聚类空间预警算法如下：

1)重要维度预警

其中，R_max为重要维度的预警阈值；r_max、F_min分别为该维度n个数据中的最大值、最小值；r_i表示该重要维度第i个数据；

2)普通维度预警

3)所有维度融合值预警

重要维度超标，即直接预警，其他情况下给出预警评价值：

其中，Q_i为第i个重要维度的预警评价值；W_j为第j个普通维度的预警评价值；为第i个重要维度的数据集合；T_j为第j个普通维度的数据集合；R_imax表示第i个重要维度的数据集合的预警阈值；T_jmax表示第j个普通维度的数据集合的预警阈值；

重要维度与普通维度预警区间各分为三个部分，以重要维度为例：R_max值及以上为红色预警区间；大于等于0.8R_max，小于R_max为橙色预警区间；小于0.8R_max为正常黄色预警区间。

当普通维度红色预警与橙色预警，重要维度橙色预警，积累到一定次数时，也应发出预警。算法如下：

其中，q为重要维度个数，w为普通维度个数；γ为预警系数，可根据用户需求进行设置。

S08：维度缺失故障信息处理

在实时预警时，由于终端采集未成功、通信网络延时、召测不及时等原因，存在电网资源正常运行时误报故障信息，而配电网故障运行时又漏报故障信息或者故障信息报送不及时等情况导致维度缺失，这时不能直接将数据进行预警分析，否则会导致误报率大大增加。

记电网资源数据维度为Z，假设缺失的维度为s，若时，该数据维度缺失过多，判定为无效信息。若/>时，对已有的聚类空间进行降维，并使用面向维度缺失的故障研判算法计算缺失的实时电网资源数据与聚类中心的距离，并研判该实时数据是否处于故障空间中。面向维度缺失的故障研判算法如下：

其中，P_j(y_i＝m|x_i)表示待研判数据x_i归属第j个聚类中心的概率，m表示共有聚类中心的个数，g_j为第j个聚类中心。若P_j>0.9，则该实时数据可与第j个类聚集，处于故障空间中。若P_j≤0.9，则该实时数据不处于故障空间中，不进行研判。

S09：综合预警研判。

根据上述步骤S01-S08提供的一种面向新型电力系统的电网资源聚类预警分析方法，可进一步提高电网资源稳定性和电网供电可靠性，解决围绕故障发生之后进行告警和抢修的被动运维模式造成损失大、静态阈值难以适应复杂动态预警研判需求、电网资源阈值设置准确性不足、故障溯源不清晰、影响范围不准确、原因判断不智能等问题，可以向用户发出预警，用户可根据本方法的电网资源预警研判结果，并采用参考其他渠道研判信息、安排人员巡检等方法来进一步综合研判电网资源故障，来判断该电网资源的故障处理方案，定位电网故障，做出抢修决策，并安排人力、车辆、设备等资源，完成电网资源预警信息的处置和故障抢修工作。

应当理解，在一些示例中，上述结合图1中所图示的操作可以由硬件(例如，包括电路、处理块、逻辑组件和其他组件)、由处理器执行的代码(例如，软件或固件)或其任何组合来执行。可以实现相关内容替代示例，其中一些步骤可以以与描述的顺序不同的顺序执行或根本不执行。在一些情况下，步骤可以包括上文未提及的附加特征，或者可以添加更多步骤。

实施例2：

本实施例提供一种面向新型电力系统的电网资源聚类预警系统，所述系统包括：

应理解，本发明实施例中的面向新型电力系统的电网资源聚类预警系统可以实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实施例中的相关描述，此处不再赘述。

实施例3：

本实施例提供一种计算机设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如本发明第一方面所述的面向新型电力系统的电网资源聚类预警方法的步骤。

实施例4：

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面所述的面向新型电力系统的电网资源聚类预警方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置(系统)、计算机设备或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程以及流程图中的流程的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。

Claims

1.一种面向新型电力系统的电网资源聚类预警方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，多源多模态电网资源数据包括结构化数据和非结构化数据，对结构化数据进行数字化转换包括：

将非结构化数据也转化为c维向量；

向量的维度c根据以下向量维度计算公式得到：

3.根据权利要求1所述的方法，其特征在于，K-means算法的k值通过聚类边缘系数法确定，包括：

选取聚类边缘系数最大的值对应的k作为最终簇的数目。

4.根据权利要求1所述的方法，其特征在于，K-means算法的k值通过聚类误差分析法确定，包括：

通过对P值趋势的判断选出合适的k值：

5.根据权利要求1所述的方法，其特征在于，K-means算法的k值通过聚类边缘系数法和聚类误差分析法的融合算法确定：

其中，Q为融合算法选出的k值；A为聚类边缘系数法选出的k值；B为聚类误差分析法选出的k值；P_A表示k值为A时，聚类的整体误差；P_B表示k值为B时，聚类的整体误差；

其中A值的计算方法包括：

对于每个簇中的每个样本点h_i，计算样本点h_i到与其属于同一个簇的其他样本点的距离的平均值a(i)；选取h_i外的其他簇G_j，计算h_i与G_j中所有样本的距离的平均值b_ij，遍历所有其他簇，找到平均距离的最小值，记作b(i)，b(i)＝min(b_i1,b_i1,…,b_ik)；按下式计算所有样本点d_i的聚类边缘系数：求出平均值即为当前k值下聚类的整体聚类边缘系数S；选取聚类边缘系数最大的值对应的k作为最终簇的数目，记为A；

其中B值的计算方法包括：

在聚类中心稳定后，设定一个k值的可能取值集合，记为K＝{K₁,K₂,…,K_n}，K₁到K_n按从小到大的顺序排列，计算聚类的整体误差：其中，P为聚类的整体误差；c_j表示第j个簇的聚类中心；e_j表示第j个簇中样本点的个数；j取值为1到K；d_jl表示第j个簇中第l个样本点的值；l取值为1到e_j；通过对P值趋势的判断选出合适的k值：其中，k值取K_i时，P_i为聚类的整体误差；α为判定系数；k值取K_a时，P_a为聚类的整体误差；不断增大a的值，当上式满足要求时，选择出满足该式子的最小的a值对应的k值，记为B。

6.根据权利要求1所述的方法，其特征在于，基于聚类中心变动距离进行离群点检测包括：

将计算得到聚类中心变动距离按照升序排序后得到{d′_m1,d′_m2,…,d′_mn}，对属于类G_m的实例h_a对应的聚类中心变动距离d_mma，判断是否满足以下公式，将满足该公式的实例识别为离群点：

其中，d_ma表示去掉属于类G_m的实例h_a后对应的聚类中心变动距离，n是该聚类中实例的个数，d′_mn表示聚类中心变动距离按照升序排序后的最大值，d′_mi表示聚类中心变动距离按照升序排序后第i个变动距离，α₁、α₂是权重。

7.根据权利要求1所述的方法，其特征在于，多元故障空间融合初始研判规则如下：

多元故障空间融合的公式如下：

式中：x表示需要同时进行融合的集合的个数，|G_i|表示故障类G_i中样本的个数，g_i为聚类中心，g^′为x个集合融合后的聚类中心。

8.根据权利要求7所述的方法，其特征在于，故障类容忍半径的确定方法如下：

记故障类别为G_i，计算属于故障类G_i中所有的故障数据h_j到聚类中心g_i的距离ρ_ij并升序排序，将前指定百分比距离数值较小的ρ_ij取平均值记为故障类的密集半径r_i，将剩下的距离数值较大的ρ_ij取平均值并加上r_i记为故障类的容忍半径R_i，即/> ε为调整权值。

9.根据权利要求1所述的方法，其特征在于，对于重要维度，按下式计算预警阈值：

对于普通维度，按下式计算预警阈值：

对于所有维度融合预警评价值，按下式确定：

10.根据权利要求9所述的方法，其特征在于，进行多维聚类空间的预警研判包括：

11.根据权利要求1所述的方法，其特征在于，所述方法在进行多维聚类空间的预警研判之前还包括：识别电网资源数据中缺失的维度，使用面向维度缺失的故障研判算法计算缺失的实时电网资源数据与聚类中心的距离，并研判该实时数据是否处于故障空间中，对于不在故障空间中的实时数据，不进行多维聚类空间的预警研判，其中面向维度缺失的故障研判算法如下：

12.一种面向新型电力系统的电网资源聚类预警系统，其特征在于，所述系统包括：

13.根据权利要求12所述的系统，其特征在于，多源多模态电网资源数据包括结构化数据和非结构化数据，对结构化数据进行数字化转换包括：

将非结构化数据也转化为c维向量；

向量的维度c根据以下向量维度计算公式得到：

14.根据权利要求12所述的系统，其特征在于，K-means算法的k值通过聚类边缘系数法确定，包括：

选取聚类边缘系数最大的值对应的k作为最终簇的数目。

15.根据权利要求12所述的系统，其特征在于，K-means算法的k值通过聚类误差分析法确定，包括：

通过对P值趋势的判断选出合适的k值：

16.根据权利要求12所述的系统，其特征在于，K-means算法的k值通过聚类边缘系数法和聚类误差分析法的融合算法确定：

其中A值的计算方法包括：

其中B值的计算方法包括：

17.根据权利要求12所述的系统，其特征在于，基于聚类中心变动距离进行离群点检测包括：

将计算得到聚类中心变动距离按照升序排序后得到{d′_m1,d′_m2,…,d′_mn}，对属于类G_m的实例h_a对应的聚类中心变动距离d_ma，判断是否满足以下公式，将满足该公式的实例识别为离群点：

18.根据权利要求12所述的系统，其特征在于，多元故障空间融合初始研判规则如下：

多元故障空间融合的公式如下：

19.根据权利要求12所述的系统，其特征在于，对于重要维度，按下式计算预警阈值：

对于普通维度，按下式计算预警阈值：

对于所有维度融合预警评价值，按下式确定：

20.根据权利要求19所述的系统，其特征在于，进行多维聚类空间的预警研判包括：

21.根据权利要求12所述的系统，其特征在于，还包括维度缺失故障信息处理模块，用于在进行多维聚类空间的预警研判之前，识别电网资源数据中缺失的维度，使用面向维度缺失的故障研判算法计算缺失的实时电网资源数据与聚类中心的距离，并研判该实时数据是否处于故障空间中，对于不在故障空间中的实时数据，不进行多维聚类空间的预警研判，其中面向维度缺失的故障研判算法如下：

22.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如权利要求1-11中任一项所述的面向新型电力系统的电网资源聚类预警方法的步骤。

23.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-11中任一项所述的面向新型电力系统的电网资源聚类预警方法的步骤。