CN116050867A

CN116050867A - 一种具备可解释性的数据驱动电力系统暂态稳定评估方法

Info

Publication number: CN116050867A
Application number: CN202310067653.0A
Authority: CN
Inventors: 武宇翔; 牛哲文; 韩肖清; 赵津蔓; 闫博阳
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2023-02-06
Filing date: 2023-02-06
Publication date: 2023-05-02

Abstract

本发明公开了一种具备可解释性的数据驱动电力系统暂态稳定评估方法，涉及人工智能技术在电力系统中的应用领域。本发明应用数据驱动思想、特征降维去噪、样本增强的数据预处理方法、可解释性原理，研究电力系统暂态稳定评估方法及其可解释性分析；总体方案包括离线训练及在线训练两部分，其中离线训练包括样本生成、模型训练及可解释分析，为保障电力系统安全稳定提供新的辅助分析和决策支持手段。包括基于电力系统安全状态、警戒状态、紧急状态和崩溃状态的样本特征提取技术；基于合成少数过采样原理SMOTE的样本数据增强技术；基于改进机器学习的暂态稳定评估及损失函数构建方法；基于模型决策和数据特征的可解释原理；本发明在多个方面在重大进步。

Description

一种具备可解释性的数据驱动电力系统暂态稳定评估方法

技术领域

本发明涉及人工智能技术在电力系统中的应用领域，具体为一种具备可解释性的数据驱动电力系统暂态稳定评估方法。

背景技术

电力系统的暂态稳定分析是保障电力系统正常运行的基础。“双碳”目标下，随着高比例新能源电力电子设备的大规模并网以及远距离特高压交直流输电的推广普及，电源结构发生了重大变化(周孝信,陈树勇,鲁宗相,黄彦浩,马士聪,赵强.能源转型中我国新一代电力系统的技术特征[J].中国电机工程学报,2018,38(07):1893-1904+2205.)，电网安全稳定特性更加复杂、控制难度加大，电力系统的安全稳定面临着严峻考验。随着电力电子设备的大量涌现，电网的暂态过程仿真分析模型日益复杂，新能源发电则使得电网潮流分布的变化和转移更加迅速。这些都对基于时域仿真的暂态稳定评估方法提出了挑战，且对于大规模系统物理模型建模困难(胡伟,郑乐,闵勇,董昱,余锐,王磊.基于深度学习的电力系统故障后暂态稳定评估研究[J].电网技术,2017,41(10):3140-3146.)，其相对固化的逻辑难以满足当下电力系统的需求。

随着广域量测技术的成熟和人工智能技术的发展，基于人工智能方法的电力系统在线暂态稳定评估为大电网的智能分析与控制提供了一条崭新途径(黄明增,胡雅涵,文云峰,李玲芳,肖友强.融合JMIM和NGBoost的电力系统暂态稳定评估方法[J].电力系统自动化,2021,45(08):155-165.)。机器学习解决的关键问题是能自动从简单的原始特征中提取出复杂抽象的特征，具有强大的非线性表达和模型识别能力。一方面，对历史数据的分析有助于了解电网运行的故障特性，另一方面在线数据的分析有助于掌握电网实际运行状态，以构建或校正暂态稳定评估模型。但数据方法的性能高度依赖于数据规模和质量，而获取实际电网获取这些传输数据时必然会遭受到不同噪声的干扰，同时数据方法由于缺乏对物理知识的理解性和对结果的解释性，使其可靠性大幅降低而受限于在核心领域的应用。常用数据驱动的暂态稳定分析方法包括机器学习(叶圣永,王晓茹,刘志刚,等.基于支持向量机增量学习的电力系统暂态稳定评估[J].电力系统自动化,2011,35(11):15-19)、迁移学习(申锦鹏,杨军,李蕊,等.基于改进域对抗迁移学习的电力系统暂态稳定自适应评估[J/OL].电力系统自动化:1-13[2022-11-09])和深度学习(高昆仑,杨帅,刘思言,等.基于一维卷积神经网络的电力系统暂态稳定评估[J].电力系统自动化,2019,43(12):18-26.)等在内的多种机器学习算法都取得了良好的应用效果，但也存在特征不合理、模型准确率低以及可解释性差等仍待解决的问题。图1为现阶段暂态稳定评估中存在的问题。

具体而言，选择高度凝练且具有代表性的输入特征是数据驱动电力系统暂态稳定方法的首要条件。目前的研究大多依靠先验知识选择影响暂态过程的因素作为特征，但一方面无法保证选择的全面性，另一方面特征间冗余度高，易造成高维空间样本的维数灾难，且对于实际中样本不均衡问题没有深入研究。文献(Gomez,F.R.,Rajapakse,A.D.,Annakkage,U.D.,Fernando,I.T..Support Vector Machine-Based Algorithm for Post-Fault Transient Stability Status Prediction Using Synchronized Measurements[J].IEEE Transactions on Power Systems:A Publication of the Power EngineeringSociety,2011,26(3))将故障后的节点电压、发电机转子角速度作为输入，文献(周艳真,吴俊勇,于之虹,冀鲁豫,严剑峰,郝亮亮.基于转子角轨迹簇特征的电力系统暂态稳定评估[J].电网技术,2016,40(05):1482-1487.)将转子角轨迹簇作为特征集，但当应用于大规模系统时，需要耗费较长的计算时间，无法满足瞬时响应。目前对特征降维的研究主要有特征筛选(Bellizio Federica,Cremer Jochen L.,Sun Mingyang,Strbac Goran.A causalitybased feature selection approach for data-driven dynamic security assessment[J].Electric Power Systems Research,2021,201)和特征提取(王同文,管霖,张尧.人工智能技术在电网稳定评估中的应用综述[J].电网技术,2009,33(12):60-65+71.)，前者是从原始特征集中选出某个子集而不改变原始特征空间，可分为过滤法、包装法、嵌入法和组合法(Siti Rohaidah Ahmad,Azuraliza Abu Bakar,Mohd Ridzwan Yaakub.A review offeature selection techniques in sentiment analysis[J].Intelligent DataAnalysis,2019,23(1))，后者是通过特征间的关系，将原始特征空间中的多个特征映射到由少数关键特征组成的新空间中，常用分析方法是主成分分析法(吴双,胡伟,张林,刘欣宇.基于AI技术的电网关键稳定特征智能选择方法[J].中国电机工程学报,2019,39(01):14-21+316.)，此外某些深度学习模型本身含有降维功能，能实现特征自学习，文献(G.E.Hinton,R.R.Salakhutdinov.Reducing the Dimensionality of Data with NeuralNetworks[J].Science,2006,313(5786))采用自编码深度学习网络中的编码器降低数据维数。

另一方面，随着机器学习理论的发展，人工神经网络(姚德全,贾宏杰,赵帅.基于复合神经网络的电力系统暂态稳定评估和裕度预测[J].电力系统自动化,2013,37(20):41-46)、支持向量机(叶圣永,王晓茹,刘志刚,钱清泉.基于支持向量机增量学习的电力系统暂态稳定评估[J].电力系统自动化,2011,35(11):15-19)等模型广泛应用于暂态稳定预测。然而，电网运行方式、网络结构不断变化，新能源出力和负荷的波动也给电力系统带来更多不确定性(文云峰,赵荣臻,肖友强,刘祯斌.基于多层极限学习机的电力系统频率安全评估方法[J].电力系统自动化,2019,43(01):133-140)，受电网时变特性和不确定性的影响，基于历史数据训练好的机器学习模型，当在线应用时难以确保可信。因此，对基于机器学习的暂态稳定预测结果进行可靠性评估是至关重要的(黄明增,胡雅涵,文云峰,李玲芳,肖友强.融合JMIM和NGBoost的电力系统暂态稳定评估方法[J].电力系统自动化,2021,45(08):155-165)。文献(Winham Stacey J,Freimuth Robert R,Biernacka JoannaM.AWeighted Random Forests Approach to Improve Predictive Performance.[J].Statistical analysis and data mining,2013,6(6))提出梯度提升算法对多个朴素贝叶斯分类器集成，有效降低了误分类率，取得了一定成果。文献(Xu,Y.,Dong,Z.Y.,Zhao,J.H.,Zhang,P.,Wong,K.P..A Reliable Intelligent System for Real-Time DynamicSecurity Assessment of Power Systems[J].IEEE Transactions on Power Systems:APublication of the Power Engineering Society,2012,27(3))结合分类规则和概率估计评价极限学习机决策结果的可信度。然而，该方法为浅层模型，预测精度有待提高。文献(Bo Wang,BiWu Fang,Yajun Wang,Hesen Liu,Yilu Liu.Power System TransientStability Assessment Based on Big Data and the Core Vector Machine.[J].IEEETrans.Smart Grid,2016,7(5))基于长短时记忆网络构建了时间自适应的暂态稳定评估系统，且能平衡准确率和训练速度之间的矛盾。文献(邵美阳,吴俊勇,李宝琴,张若愚.基于两阶段集成深度置信网络的电力系统暂态稳定评估[J].电网技术,2020,44(05):1776-1787.)通过概率输出机制组合不同结构的深度置信网络，并以模型决策概率来衡量结果的可信度。然而，深度学习模型需要大量的样本以建立优异的映射关系，对样本依赖性强。区别于深度学习，集成学习对样本依赖性低，且具有较高的精度。文献(戴远航,陈磊,张玮灵,闵勇,李文锋.基于多支持向量机综合的电力系统暂态稳定评估[J].中国电机工程学报,2016,36(05):1173-1180.)构建了基于集成支持向量机的暂态稳定评估模型，通过计算距离最优分类面的远近程度进行可信度评价。但是，仅对输出结果进行简单的平均处理，无法有效解决对噪声敏感度高以及对大样本数据适应性低等支持向量机的固有缺陷。然而，普遍未考虑到样本类别的不平衡，并默认所有样本的训练权重相同，使机器学习模型对不同状态的学习能力存在较大差异，某些样本由于随机性无法被模型训练到，且模型无法从分类错误的样本中得到改进，降低了模型的泛化能力。

数据驱动机模型的黑箱性质限制了其在实际电力系统中的应用。暂态功角稳定的在线评估对可解释性的要求是一方面快速准确地给出决策依据，另一方面挖掘影响暂态过程的关键因素，为调度人员提供可理解的评估结果。在可解释性方面,端到端的学习策略使以神经网络为代表的深度学习成为数据驱动下的黑箱模型(Collaris Dennis,Van WijkJarke.StrategyAtlas:Strategy Analysis for Machine Learning Interpretability.[J].IEEE transactions on visualization and computer graphics,2022,PP)，一方面，对输出结果无法给出决策依据降低了模型的可信度，缺乏物理原理支撑，人们难以探究模型从数据中挖掘的隐含知识，对于更新领域知识和指导实践无法起到作用；另一方面，深度学习的工作过程无法感知，无法评判其合理性，降低了模型的可靠性。基于机器学习的可解释方法主要有三种，且主要集中在图像识别、语言处理、医疗诊断层面：首先是建立本身具备可解释性的模型(成科扬,王宁,师文喜,詹永照.深度学习可解释性研究进展[J].计算机研究与发展,2020,57(06):1208-1217)，如线性模型、决策树(Mangalathu Sujith,Karthikeyan Karthika,Feng De-Cheng,Jeon Jong-Su.Machine-learninginterpretability techniques for seismic performance assessment ofinfrastructure systems[J].Engineering Structures,2022,250)、朴素贝叶斯等，虽然这些浅层模型结构简单易于理解，但牺牲了分类结果的准确率，不适用于电网对决策的高精度要求；其次是引入可视化技术，通过研究模型内部结构参数获得解释，如反卷积、积分梯度法、平滑梯度法、激活最大化法(纪守领,李进锋,杜天宇,李博.机器学习模型可解释性方法、应用与安全研究综述[J].计算机研究与发展,2019,56(10):2071-2096)，但要求输入必须为连续性数据，且在优化过程中干扰和不确定性可能导致产生的原型样本难以解释(孔祥维,唐鑫泽,王子明.人工智能决策可解释性的研究综述[J].系统工程理论与实践,2021,41(02):524-536)；或是建立与模型无关的解释，即在不考虑模型工作过程的前提下，由模型的输入输出来解释模型的预测结果，如敏感性分析、局部线性近似LIME(BurkartNadia,Huber Marco F..A Survey on the Explainability of Supervised MachineLearning[J].JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH,2021,70)等，这些方法实现简单且不受限于黑箱结构，但只能解释局部样本的变化，无法对全局决策提出合理解释，降低了解释的可信度，且只能分析与输出成线性相关的特殊特征。文献(DiogoV.Carvalho,Eduardo M.Pereira,Jaime S.Cardoso.Machine LearningInterpretability:A Survey on Methods and Metrics[J].Electronics,2019,8(8))将极限梯度提升的集成算法应用于暂态稳定预测，但该模型在处理电力系统实际高维稀疏数据时效果较差，且贪心搜索策略寻找最佳分裂点的计算量大，不适合在线实时评估；文献(刘建伟,刘俊文,罗雄麟.深度学习中注意力机制研究进展[J].工程科学学报,2021,43(11):1499-1511)提出从注意力机制的角度，将模型分配较大注意力权重的输入作为模型预测解释，但无法保证当数据注意力概率分布发生变化时，其预测结果发生对应变化；文献(周志杰,曹友,胡昌华,唐帅文,张春潮,王杰.基于规则的建模方法的可解释性及其发展[J].自动化学报,2021,47(06):1201-1216.)提出支持类别特征的梯度提升算法作为暂态电压稳定评估模型，但只解释了单一特征对结果的影响，忽略了特征相关性及特征组合的作用；文献(周挺,杨军,詹祥澎,裴洋舟,张俊,陈厚桂,朱凤华.一种数据驱动的暂态电压稳定评估方法及其可解释性研究[J].电网技术,2021,45(11):4416-4425.)从输入特征的热度图的角度结合故障参数设置对指定实例进行解释，缺乏对代理模型全局预测的解释，在缺少普适性的同时增加了解释的时间成本。

综上，目前基于人工智能技术的电力系统暂态稳定评估方法主要在特征选择、暂态稳定评估、模型可解释性方面存在瓶颈，限制了其大规模在线评估应用。

(1)在特征提取层面，现有广域量测系统(Wide Area Measurement System，WAMS)采集的数据存在样本不均衡、数据维度冗余、噪声污染等问题。一方面，WAMS直接采集到的是海量实测高维数据，直接用于训练容易造成模型过拟合，训练时间过长不利于在线实时评估，且运行中安全态样本远多于失稳样本，不利于模型如何合理筛选少量核心特征作为机器学习模型的输入，是影响评估准确性的先决条件；另一方面，实际环境中不可避免的存在噪声干扰，需要从历史数据中排除不符合系统运行趋势的无效数据，而现有的样本去噪方法没有按状态标签分类，易掩盖掉不同状态的合理样本数据，或误采纳极端坏数据。

(2)在暂态稳定评估方面，目前暂态稳定分析大多只给出了稳定与否的二分类定性评估，缺少对系统过渡状态的准确感知；在算法层面，传统机器学习受限于其模型自身的规模与性质，普遍未考虑样本训练权重的差异，导致模型无法从分类错误的样本中得到改进，进而降低了模型的准确性。

(3)在模型可解释方面，现有机器学习模型是端对端的黑箱模型，评估过程和结果缺乏原理解释，因而评估结果的可靠性差。目前对可解释性的研究较少，且聚焦于数据关系而忽略了模型自身的性质，缺乏对评估模型整体决策过程的理解，脱离模型而只分析输入输出数据的映射关系难以对模型本身的预测依据给出合理解释。

因此需要改进现有的基于人工智能技术的电力系统暂态稳定评估方法。

发明内容

本发明为了解决基于人工智能技术的电力系统暂态稳定评估方法在特征选择、暂态稳定评估、模型可解释性方面所存在的问题，提供了一种具备可解释性的数据驱动电力系统暂态稳定评估方法。

本发明是通过如下技术方案来实现的：一种具备可解释性的数据驱动电力系统暂态稳定评估方法，应用数据驱动的思想、特征降维去噪、样本增强的数据预处理方法、可解释性原理，研究电力系统暂态稳定评估方法及其可解释性分析。总体方案包括离线训练及在线训练两部分，其中离线训练包括样本生成、模型训练及可解释分析三个阶段，为保障电力系统安全稳定提供新的辅助分析和决策支持手段，具体包括如下步骤：

阶段1：基于数据与知识融合的样本，特征加强：

①样本生成：在PSASP软件中仿真搭建IEEE39节点系统，为体现新能源对系统暂态稳定性的影响，将若干火力发电机替换为风力发电机，再将另外的一台火力发电机替换为光伏发电机，构造发电机组、负荷在允许范围内变化的潮流方式和不同故障方式的暂态场景；提取包含母线、发电机、交流线、负荷信息的运行特征与具有物理意义的统计学组合特征，其中选择运行特征的目的是全面涵盖反映暂态过程的物理信息，直接由WAMS采集得到；组合特征的目的是将同类运行特征经过数学运算合并归一，达到减小特征维度并有助于挖掘影响暂态过程的本质因素；

②标签构造：依据《电力系统安全稳定导则》，分析样本经过暂态过程后，系统中各机组之间的功角经过第一或第二振荡周期是否失步，若任意两台发电机功角不失步且作同步衰减振荡，则该样本为正常状态，否则为不正常状态；在正常状态中，进行全网N-1校验，若对所有N-1故障系统仍能保持同步稳定运行，则系统具有足够的稳定裕度，相应的样本处于安全状态，用标签1表示；若至少有一种N-1故障失稳，则相应样本处于警戒状态，用标签2表示；在不安全状态中，通过能量原理，即振荡时有功功率是否过零点，进而判断系统是否非发生同步振荡解列，若系统未发生解列则该样本为紧急状态，用标签3表示，反之则为崩溃状态，用标签4表示；

③样本加强：为解决样本类别不均衡的问题，使用随机欠采样方法修剪多数类中的样本数量，利用SMOTE原理为少数类别创建尽可能多的合成样本，以平衡类别分布；为解决噪声干扰问题，采用改进的分段聚焦近似PAA方法，首先将样本按标签分为四组，在每组中计算平均特征值，对相同状态标签分组采用等时间间隔的分段聚焦近似拟合，并筛除距离平均值较远的拟合值，避免了极端数据的干扰，同时显著降低了样本维度；

④特征加强：为降低特征维度，采用递归特征消除方法获得最佳评估特征数量，并依据相关系数进行特征筛选，在保持高准确率的同时使尽量少的特征用于模型训练，避免模型过拟合问题，并提高训练速度；

阶段2：数据驱动的暂态稳定评估：

①模型构建：在python的sklearn环境下搭建随机森林模型，对目标函数进行改进，如公式(1)所示：

其中N为样本总数，L为损失函数，R(h)为正则项，表示各基础分类器的平均决策路径长度，ε为正则系数；当ε较小时模型准确率较高，但结构更为复杂，计算速度和解释性差；当ε较大时，决策规则透明度高，而准确率相对下降，因此需要根据实际需要调整正则化系数；

②模型优化：对模型制定评估指标，从结构和参数上对模型进行改良，使之对数据集达到尽量准确的拟合效果；改变系统稳态运行条件、故障条件、仿真模型及评估模型，将选择的特征集在不同条件下进行评估，判断是否能达到同样的性能；将最终的评估模型进行可视化，形成图像，其中X代表特征，gini为基尼系数，越小代表分类越彻底，samples代表样本数，values代表每一类所含的样本数，class代表模型对当前样本的评估结果，采用多数占优原则；

阶段3：基于可解释原理的暂稳评估研究：

①规则解释：规则解释的目标是为调度人员和专家学者提供直观预测暂态状态的方法和依据，将评估模型的决策依据表达为可理解的物理知识。将改进的随机森林可视化，利用规则提取算法遍历所有根节点到叶节点的路径，对各个规则从支持度、准确度和复杂度三方面评估，其中支持度为规则覆盖实例的百分比，反映了该规则的泛化能力，支持度越高，对未知样本的适应能力越强；准确度为规则在其适用的实例中正确分类的比例，体现了规则在评估模型预测中的重要程度，准确度越高，则该规则对提升模型综合准确率方面具有更突出的贡献；复杂度与规则的路径长度成反比，一般而言，规则越繁琐，准确率越高，但可解释性越差，越不利于电网调度人员的理解和快速决策。利用评估结果对各规则进行排序，在各状态类别中选取排名最高的规则作为最终解释，构成针对不同暂态状态的最简规则解释表；

②特征重要性解释：特征重要性是依据输入特征在预测目标过程中的贡献对特征进行排序，目标是对挖掘影响暂态稳定的核心因素，并为预防控制和紧急控制提供决策支撑。首先，基于沙普利加性方法原理，训练广义加性模型拟合评估模型F(x)，如公式(2)所示：

其中，α₀为模型对全体样本的平均预测期望，m为特征维度，α_i为第i个特征的shapley值，这样模型对任一样本的预测可以表示为预测期望与该样本所有特征的shapley值之和。shapley表示每个样本x的第i个特征x_i在不同特征子集中的边际贡献的均值，如公式(3)所示：

其中{x₁,x₂,…,x_m}表示所有输入特征的集合，P为不包括特征x_i的特征子集。SHAP值不仅反映每一个样本中特征的影响力，而且还表现出影响的正负性。shapley值绝对值越大的特征对该样本预测结果的影响越大；shapley值的正负，则反映了特征将增大或减小模型的输出结果。这一性质保证了SHAP归因分析的结果能正确表征特征对模型预测的贡献。计算各特征的SHAP值并按从高到低排序，可得到特征的全局特征重要性。

然后，为进一步分析核心特征如何影响暂态过程，利用累加局部效应图(accumulated local effects plot,ALE)消除特征之间相关性的干扰，通过对预测的变化进行平均，将其累积到网格上，可以直观计算状态标签随关键特征变化的映射关系，如公式(4)所示：

其中x_i为待解释的特征，x_o为其余特征集。ALE图可以更精确地反映特征值与状态标签的变化关系，进而解释当特征值改变时对模型评估结果的影响，并且可以分析具有强相关性的变量对目标的联合效应，相比于部分依赖图具有更高效无偏的特点。

之后，将模型决策过程可视化，其中每条折线代表一个样本，反映了特征如何将模型从平均预测改变为该样本的特定状态，在特征区间内波动幅度越大，表示特征对预测的贡献程度越高，突出了影响模型预测的关键特征，可作为调度人员判断和决策的重点关注因素。

最后，基于局部线性近似方法(Local Interpretable Model-AgnosticExplanations，LIME)，建立局部代理模型对单个样本的预测进行归因，在所研究的样本附近进行小规模扰动生成新样本点，并按其到所研究样本的距离赋予新样本点权重，使用改进随机森林模型评估新样本的暂态状态，并基于局部代理的广义加性模型(generalizedadditive model,GAM)对新数据集进行拟合，得到对随机森林模型在研究样本点局部的良好近似，其目标函数如公式(5)所示：

其中f为全局评估模型，g为代理模型，x为所研究样本点，z为新生成的样本，D(x,z)²为新样本与原样本的距离，σ为标准差，π_x(z)表征了新数据集与原样本的接近程度，Ω(g)为代理模型的复杂度，实现了代理模型准确度和复杂度的有机平衡。局部解释方法对单个样本的预测进行归因，解释了模型评估的共性与个性差异，有助于分析故障样本的失稳原因。

本发明所提供的一种具备可解释性的数据驱动电力系统暂态稳定评估方法，与现有技术相比本发明具有以下有益效果：

(1)在模型可解释方面，从决策规则和特征重要性两方面完善了现有解释方法，决策规则是对评估模型的直观理解，表明了模型对样本的分类过程，同时为领域专家提供了暂态稳定分析思路；在特征重要性方面，在计算全局特征重要程度的基础上，利用累加局部效应分析了特征值与标签的映射关系，增强了对关键特征的理解，采用LIME局部算法与全局重要性相结合，分析了重要特征的共性与个体差异。与只从全局或局部分析特征重要程度相比，得出的结论更具有通用性，并能挖掘特征对不同样本的预测贡献差异。

(2)在数据预处理方面，考虑了实际情况下的样本不均衡、噪声污染以及特征维度冗余问题，提出样本-特征加强技术，平衡了各类别样本数量；经过图7的特征降维去噪，有效避免了极端数据对模型预测的影响；在保持暂态信息完整的前提下，显著降低了特征维度，避免了模型过拟合。

(3)在模型训练方面，从模型准确率和可解释方面改进了目标函数，引入评估模型复杂度的正则项，避免了现有方法过于追求评估准确性而造成模型过于复杂，降低了模型可解释性的问题；考虑多场景下模型的适应性变化，增强了样本迁移下模型的泛化能力。在sklearn和kears环境下，使用相同的训练集和测试集训练，表3对比了常用机器学习模型决策树、支持向量机、长短期记忆网络、梯度下降决策树、朴素贝叶斯与本文所提改进随机森林模型的评估性能，可见本发明所提模型的综合指标相较于传统机器学习方法达到最优。

附图说明

图1为现阶段暂态稳定评估中存在的问题示意图。

图2为本发明所提出的技术方案流程图。

图3为本发明具体实施例构建的IEEE39节点系统结构图。

图4为本发明所提出的暂态状态类别及其判别方法。

图5和图6为本发明具体实施例采用SMOTE前后样本状态类别分布变化。

图7为本发明具体实施例在原始数据集上使用PAA算法提取特征子集的过程。

图8为本发明具体实施例使用递归特征消除得到的最佳特征子集示意图。

图9为本发明具体实施例最终的评估模型进行可视化后的示意图。

图10为本发明具体实施例特征重要性排序及模型决策依据的可视化示意图。

图11为本发明具体实施例核心特征风力发电机3桨距角与状态标签的关系

图12结合LIME算法对随机样本预测进行归因分析示意图。

具体实施方式

以下结合具体实施例对本发明作进一步说明。

一种具备可解释性的数据驱动电力系统暂态稳定评估方法，如图2所示，包括如下步骤：

阶段1：基于数据与知识融合的样本，特征加强：

①样本生成：在PSASP软件中仿真搭建IEEE39节点系统，为体现新能源对系统暂态稳定性的影响，将原火力发电机3、7替换为风力发电机，将火力发电机4替换为光伏发电机，图3为本发明构建的IEEE39节点系统结构图，构造发电机组、负荷在允许范围内变化的潮流方式和不同故障方式的暂态场景，表1列出了算例样本生成方案；提取包含母线、发电机、交流线、负荷信息的运行特征与具有物理意义的统计学组合特征，表2列出了本发明所提取的特征类别，其中选择运行特征的目的是全面涵盖反映暂态过程的物理信息，直接由WAMS采集得到；组合特征的目的是将同类运行特征经过数学运算合并归一，达到减小特征维度并有助于挖掘影响暂态过程的本质因素；

表1

表2

②标签构造：依据《电力系统安全稳定导则》，分析样本经过暂态过程后，系统中各机组之间的功角经过第一或第二振荡周期是否失步，若任意两台发电机功角不失步且作同步衰减振荡，则该样本为正常状态，否则为不正常状态；在正常状态中，进行全网N-1校验，若对所有N-1故障系统仍能保持同步稳定运行，则系统具有足够的稳定裕度，相应的样本处于安全状态，用标签1表示；若至少有一种N-1故障失稳，则相应样本处于警戒状态，用标签2表示；在不安全状态中，通过能量原理，即振荡时有功功率是否过零点，进而判断系统是否非发生同步振荡解列，若系统未发生解列则该样本为紧急状态，用标签3表示，反之则为崩溃状态，用标签4表示；图4为本实施例所提出的暂态状态类别及其判别方法示意图。

③样本加强：为解决样本类别不均衡的问题，使用随机欠采样方法修剪多数类中的样本数量，利用SMOTE原理为少数类别创建尽可能多的合成样本，以平衡类别分布；图5和图6为采用SMOTE前后样本状态类别分布变化，原始数据集中安全状态1与崩溃状态4的比例接近15:1，SMOTE平滑处理后四种状态的样本之比接近1。为解决噪声干扰问题，采用改进的分段聚焦近似PAA方法，首先将样本按标签分为四组，在每组中计算平均特征值，对相同状态标签分组采用等时间间隔的分段聚焦近似拟合，并筛除距离平均值较远的拟合值；避免了极端数据的干扰，同时显著降低了样本维度。图7为在原始数据集上使用PAA算法提取特征子集的过程，采用20个时间长度为间隔，构成新的数据集；

④特征加强：为降低特征维度，采用递归特征消除方法获得最佳评估特征数量，并依据相关系数进行特征筛选，在保持高准确率的同时使尽量少的特征用于模型训练，避免模型过拟合问题，并提高训练速度；图8展示了使用递归特征消除得到的最佳特征子集，当选择特征个数为65时，可以达到98.9％的评估准确率。

阶段2：数据驱动的暂态稳定评估：

其中N为样本总数，L为损失函数，R(h)为正则项，表示各基础分类器的平均决策路径长度，ε为正则系数；当ε较小时模型准确率较高，但结构更为复杂，计算速度和解释性差；当ε较大时，决策规则透明度高，而准确率相对下降，因此需要根据实际需要调整正则化系数。

②模型优化：对模型制定评估指标，从结构和参数上对模型进行改良，使之对数据集达到尽量准确的拟合效果；改变系统稳态运行条件、故障条件、仿真模型及评估模型，将选择的特征集在不同条件下进行评估，判断是否能达到同样的性能；图9将最终的评估模型进行可视化，形成图像，其中X代表特征，gini为基尼系数，越小代表分类越彻底，samples代表样本数，values代表每一类所含的样本数，class代表模型对当前样本的评估结果，采用多数占优原则；

阶段3：基于可解释原理的暂稳评估研究：

②特征重要性解释：计算各特征的SHAP Values按从高到低排序，得到特征的全局特征重要性；图10可视化了特征重要性排序及模型决策依据，其中每条折线代表一个样本，在特征区间内波动幅度越大，代表模型在对样本的预测中相应特征的贡献程度越大；利用累加局部效应图分析重要特征与标签的关系，图11展示了核心特征风力发电机3桨距角与状态标签的关系，其中横坐标上显示了数据点分布，黑色实线表示ALE曲线，反映了特征对模型预测的平均影响，从总体看，模型预测结果与风力发电机3桨距角具有强相关性，且变化趋势大致分为四段。当风力发电机3桨距角小于0.762时，平均预测值稳定不变，对应样本为崩溃状态；当桨距角处于[0.762,0.785]范围时，平均状态预测随桨距角的增大而急剧减小，对应崩溃状态向紧急状态的过渡过程；当桨距角位于[0.785,0.897]范围时，对应于紧急状态向警戒状态的转变；当桨距角大于0.897时，预测值不再改变，样本将保持在安全状态。图12结合LIME算法对随机样本预测进行归因分析，其中横轴为LIME值，负值表示该特征对非正常状态有贡献，正值代表特征预测为正常状态，绝对值越大表明特征的贡献越高，可知该样本是由于母线电压整体偏低引起的电压失稳，由于母线电压最小值、风力发电机3桨距角、母线电压平均值、母线15电压均预测为崩溃状态，且其相对占比较高，因此有98.2％的置信度认为该样本为崩溃状态，且可以得出全局重要特征针对局部样本仍具有普适性。

表3对比了常用机器学习模型决策树、支持向量机、长短期记忆网络、梯度下降决策树、朴素贝叶斯与本文所提改进随机森林模型的评估性能，可见本发明所提模型的综合指标相较于传统机器学习方法达到最优。

表3

评估模型	准确率	召回率	精度	F1分数
					决策树	0.978	0.981	0.983	0.982
支持向量机	0.982	0.983	0.987	0.985
					长短期记忆网络	0.992	0.990	0.993	0.992
梯度下降决策树	0.984	0.987	0.989	0.988
					朴素贝叶斯	0.967	0.942	0.974	0.958
改进的随机森林	0.996	0.993	0.995	0.994

本发明要求保护的范围不限于以上具体实施方式，而且对于本领域技术人员而言，本发明可以有多种变形和更改，凡在本发明的构思与原则之内所作的任何修改、改进和等同替换都应包含在本发明的保护范围之内。

Claims

1.一种具备可解释性的数据驱动电力系统暂态稳定评估方法，其特征在于：包括如下步骤：

阶段1：基于数据与知识融合的样本，特征加强：

②标签构造：分析样本经过暂态过程后，系统中各机组之间的功角经过第一或第二振荡周期是否失步，若任意两台发电机功角不失步且作同步衰减振荡，则该样本为正常状态，否则为不正常状态；在正常状态中，进行全网N-1校验，若对所有N-1故障系统仍能保持同步稳定运行，则系统具有足够的稳定裕度，相应的样本处于安全状态，用标签1表示；若至少有一种N-1故障失稳，则相应样本处于警戒状态，用标签2表示；在不安全状态中，通过能量原理，即振荡时有功功率是否过零点，进而判断系统是否非发生同步振荡解列，若系统未发生解列则该样本为紧急状态，用标签3表示，反之则为崩溃状态，用标签4表示；

③样本加强：为解决样本类别不均衡的问题，使用随机欠采样方法修剪多数类中的样本数量，利用SMOTE原理为少数类别创建尽可能多的合成样本，以平衡类别分布；为解决噪声干扰问题，采用改进的分段聚焦近似PAA方法，首先将样本按标签分为四组，在每组中计算平均特征值，对相同状态标签分组采用等时间间隔的分段聚焦近似拟合，并筛除距离平均值较远的拟合值；

阶段2：数据驱动的暂态稳定评估：

其中N为样本总数，L为损失函数，R(h)为正则项，表示各基础分类器的平均决策路径长度，ε为正则系数；

阶段3：基于可解释原理的暂稳评估研究：

①规则解释：规则解释的目标是为调度人员和专家学者提供直观预测暂态状态的方法和依据，将评估模型的决策依据表达为可理解的物理知识；将改进的随机森林可视化，利用规则提取算法遍历所有根节点到叶节点的路径，对各个规则从支持度、准确度和复杂度三方面评估，其中支持度为规则覆盖实例的百分比，准确度为规则在其适用的实例中正确分类的比例，复杂度与规则的路径长度成反比，利用评估结果对各规则进行排序，在各状态类别中选取排名最高的规则作为最终解释，构成针对不同暂态状态的最简规则解释表；

②特征重要性解释：特征重要性是依据输入特征在预测目标过程中的贡献对特征进行排序，目标是对挖掘影响暂态稳定的核心因素，并为预防控制和紧急控制提供决策支撑；首先，基于沙普利加性方法SHAP原理，训练广义加性模型拟合评估模型F(x)，如公式(2)所示：

其中{x₁,x₂,…,x_m}表示所有输入特征的集合，P为不包括特征x_i的特征子集，SHAP值不仅反映每一个样本中特征的影响力，而且还表现出影响的正负性；计算各特征的SHAP值并按从高到低排序，可得到特征的全局特征重要性；

然后，为进一步分析核心特征如何影响暂态过程，利用累加局部效应图ALE消除特征之间相关性的干扰，通过对预测的变化进行平均，将其累积到网格上，可以直观计算状态标签随关键特征变化的映射关系，如公式(4)所示：

其中x_i为待解释的特征，x_o为其余特征集；ALE图解释当特征值改变时对模型评估结果的影响，并且可以分析具有强相关性的变量对目标的联合效应；

之后，将模型决策过程可视化，其中每条折线代表一个样本，反映了特征如何将模型从平均预测改变为该样本的特定状态，在特征区间内波动幅度越大，表示特征对预测的贡献程度越高，突出了影响模型预测的关键特征，可作为调度人员判断和决策的重点关注因素；

最后，基于局部线性近似方法LIME，建立局部代理模型对单个样本的预测进行归因，在所研究的样本附近进行小规模扰动生成新样本点，并按其到所研究样本的距离赋予新样本点权重，使用改进随机森林模型评估新样本的暂态状态，并基于局部代理的广义加性模型GAM对新数据集进行拟合，得到对随机森林模型在研究样本点局部的良好近似，其目标函数如公式(5)所示：

其中f为全局评估模型，g为代理模型，x为所研究样本点，z为新生成的样本，D(x,z)²为新样本与原样本的距离，σ为标准差，π_x(z)表征了新数据集与原样本的接近程度，Ω(g)为代理模型的复杂度。

2.根据权利要求1所述的一种具备可解释性的数据驱动电力系统暂态稳定评估方法，其特征在于：阶段1的步骤①中，将两台火力发电机替换为风力发电机。