CN115936303A

CN115936303A - 基于机器学习模型进行暂态电压安全分析方法

Info

Publication number: CN115936303A
Application number: CN202211264828.9A
Authority: CN
Inventors: 孙广辉; 马斌; 杨立波; 李一鹏; 栾士岩; 贾亚飞; 张少康; 姜理源; 李安昌; 王亚军; 栗维勋; 袁龙
Original assignee: State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2023-04-07

Abstract

本发明属于电力技术领域，具体涉及一种基于机器学习模型进行暂态电压安全分析方法，采用考虑时空解耦特性的并联局域机器学习模型。相比于现有机器学习模型，并联局域模型的特点在于：该模型由多个子机器学习模型通过并联形式组成，其中每个子模型负责一类相似的电网运行场景，子模型的输入特征维度低、需要的训练样本少、训练速度快；该模型更新时仅需更新或新建一个子模型，更新代价低、需要的训练样本少、更新速度快。

Description

基于机器学习模型进行暂态电压安全分析方法

技术领域

本发明属于电力技术领域，具体涉及一种基于机器学习模型进行暂态电压安全分析方法。

背景技术

暂态电压安全分析方法需要能够在事故前判定电网的暂态电压安全性。按照是否依赖电网物理模型，暂态电压安全分析方法可以分成模型驱动方法和数据驱动方法两大类。其中，模型驱动方法主要包括数值仿真法、暂态能量函数法和分叉理论法，数据驱动方法主要包括人工智能法。

目前，基于人工智能法进行暂态电压安全分析的研究大多使用机器学习模型。训练好的机器学习模型可以快速评估电网的暂态电压安全性，而且可以用于分析大规模电网。但是当电网规模较大时，机器学习模型需要的训练样本多，导致生成样本耗时长、训练速度慢；而且机器学习模型的泛化能力较差，难以适应电网运行中拓扑结构和预想故障的变化。

目前，考虑模型驱动方法和数据驱动方法相结合的研究较少。在建立机器学习模型时，较少考虑暂态电压安全问题的特性。由于无功电压问题的局域性，导致暂态电压安全问题具有空间分布特性，而且空间分布特性是故障相依的。由于电网中各种设备的响应速度快慢不同，导致暂态电压过程中的不同阶段可能面临不同的电压问题。例如某一电网可能暂态电压恢复速度较慢，但是故障后稳态电压水平较好；而另一电网可能暂态电压恢复速度较快，但是故障后稳态电压水平较差。可见，暂态电压安全问题具有时间分布特性，仅从单一时间维度进行分析难以准确描述暂态电压过程中的动态特征。

因此，如何在数据驱动方法中考虑暂态电压安全问题的时间和空间分布特性，得出一种训练速度快、更新效率高的机器学习模型，以满足大规模电网在线暂态电压安全评估与优化的需求，是暂态电压安全分析方法中仍然存在的挑战。

发明内容

本发明提出了基于机器学习模型进行暂态电压安全分析方法，考虑时空解耦特性的并联局域机器学习模型。相比于现有机器学习模型，并联局域模型的特点在于：该模型由多个子机器学习模型通过并联形式组成，其中每个子模型负责一类相似的电网运行场景，子模型的输入特征维度低、需要的训练样本少、训练速度快；该模型更新时仅需更新或新建一个子模型，更新代价低、需要的训练样本少、更新速度快。

具体的技术方案为：

基于机器学习模型进行暂态电压安全分析方法，包括以下步骤：

首先提供一种考虑时空解耦特性的电力系统并联局域机器学习模型，称为并联局域模型，记为

并联局域模型中包含多个子机器学习模型，子机器学习模型称为局域模型，记为

多个子机器学习模型并联，每个子机器学习模型负责一类相似的电网运行场景，只需要关注部分电网的输入特征量；

局域模型的输出是TVSI指标，从多个时间维度量化评估了暂态电压过程，体现了时间层面的解耦。

把待评估的运行场景导向对应的局域模型。每个局域模型负责的一类相似运行场景对应于电网运行场景空间中的一块区域，称为局域模型的有效区域。

一、并联局域模型的建立

(1.1)，需要基于数值仿真生成样本，样本的格式为：

X＝Case＝{flt,x₀,topo}，y＝TVSI

其中，X是样本的输入特征，也即为电网运行场景。输入特征：需要包含故障flt、电网运行状态x₀、电网拓扑参数topo这三类电网信息；y是样本的输出。输出结果是TVSI指标；

对典型电网运行场景的邻域进行采样，基于数值仿真生成样本的方法为：

准备工作：调研电网的典型故障flt、电网运行状态x₀和电网拓扑参数topo。设定离线样本集规模N。

步骤1：对flt、x₀和topo进行组合得到初始运行场景集合

步骤2：在

基础上改变电网运行状态x₀，进行数值仿真。

步骤3：计算仿真结果的TVSI指标，生成样本，把样本添加到离线样本集。

步骤4：如果样本数量等于N，则终止计算；否则，转到步骤2。

其中，步骤2中的数值仿真可以并行计算，以加快生成样本的速度。

(1.2)计算样本之间的相似度，进而对样本聚类。样本相似度基于电网运行场景相似性量化方法进行计算。

使用凝聚层次聚类方法对样本集进行初步聚类，并观察聚类过程中相对合并距离与聚类数量之间的关系。如果某一步的相对合并距离突然增大，则说明不宜把样本聚成更少的簇，停止聚类，把此时的聚类数量记为c。然后使用k-means算法对初步聚类结果进行调优，聚类数量k＝c。在样本聚类之后，得到多个子样本集，子样本集记为

(1.3)针对每个子样本集分别建立一个局域模型。局域模型的有效范围为子样本集在电网运行场景空间中的对应区域。把各个局域模型按照并联形式组合起来，完成并联局域模型的建立。

二、并联局域模型的训练

(2.1)，选择局域模型使用的机器学习模型。机器学习的定义为：基于数据

和假设空间

使用算法

计算得出接近目标f的假设g，其中

是目标f的输入，

是目标f的输出。与机器学习模型相关的部分包括假设空间

和学习算法

通过算例对比分析，确定局域模型使用的机器学习模型；

然后，对子样本集进行特征选择，降低局域模型的输入特征维度；

定义子样本集

的中心

表达式如下：

其中，

是第k个子样本集，它与第k个局域模型

对应，

是

中第i个运行场景的TVSI指标矩阵，n_k是

中样本的数量。

即为子样本集

的中心，其物理含义为

内运行场景的TVSI指标矩阵的平均值。

定义子样本集

的代表运行场景Case^c，表达式如下：

其中，

是TVSI指标第t个分量的权重系数，默认取

是

中第i个运行场景的TVSI指标矩阵，

是

的中心。Case^c即为子样本集

的代表运行场景，其物理含义为与

的中心

相似度最高的运行场景。

则子样本集

在特征选择后的输入特征X^local表达式如下：

其中，

f^flt:

f^topo:

X＝{flt,x0,topo}

X是样本的完整输入特征。

和

分别是

中出现的故障flt和电网拓扑参数topo，

和

分别是代表运行场景Case^c对应的故障关联母线和故障关联无功源。基于

和

建立了从{flt,x₀,topo}到

的映射f^flt、

和f^topo，进而得到X^local。flt^local、

和topo^local分别是特征选择后的故障、电网运行状态和电网拓扑参数。flt^local中只包含

中故障的故障标志和故障持续时间，维度低于flt；topo^local中只包含

中电网拓扑参数的投运状态标志，维度低于topo；

(2.2)基于特征选择后的子样本集训练局域模型。

三、使用并联局域模型进行电网运行层面的暂态电压安全分析

本发明中提出了从电网输入特征到局域模型之间的匹配机制，基于并联局域模型进行暂态电压安全分析。

(3.1)从电网输入特征到局域模型之间的匹配机制

量化局域模型的有效范围边界。采用基于主成分分析PCA的匹配方法：基于PCA提取子样本集的关键特征，然后计算各个子样本集的关键特征与待评估电网运行场景之间的匹配度，进而找出与待评估运行场景匹配度最高的局域模型。

PCA是一种数据降维和特征提取方法。假设数据集为

其中X的每行对应一个数据样本。通过PCA得到X的特征矩阵

W的每列对应一个特征向量，而且W是正交矩阵。从W的第1列到第m列，特征向量的重要性依次降低。如果需要把数据降到k维，提取W的前k列得到W^k，则降维后的数据集为：

Y＝XW^k

其中，

是降维后的数据集。

基于降维后的数据集Y还原数据集X，计算表达式为：

其中，

是对数据集X的近似。

对于局域模型

对应的子样本集

假设

中样本的输入特征x服从分布Φ^x。对由

中样本输入特征构成的矩阵进行PCA，得到特征向量矩阵W^local。假设待评估电网运行场景的输入特征为X，则该运行场景与

之间的匹配度m^local的计算表达式为：

其中，

是编号k的局域模型

对应的特征向量矩阵的前k列，

是待评估运行场景与

之间的匹配度。

进一步，得出与待评估运行场景匹配度最高的局域模型编号为：

其中，k^*是与待评估运行场景匹配度最高的局域模型编号。

编号k^*的局域模型

即为待评估运行场景匹配到的局域模型。

(3.2)基于并联局域模型进行暂态电压安全分析

并联局域模型的输入是电网输入特征，通过匹配机制把待评估运行场景导向了匹配的局域模型，该局域模型输出的TVSI指标即为并联局域模型的输出结果。

附图说明

图1是本发明基于机器学习模型进行暂态电压安全分析的总体思路图；

图2(a)是本发明并联局域模型的结构；

图2(b)是本发明局域模型的有效区域；

图3是本发明机器学习定义的示意图；

图4是本发明主成分分析降维与还原的示意图；

图5是本发明基于并联局域模型计算TVSI指标的示意图；

图6是本发明层次聚类的过程。

具体实施方式

结合实施例说明本发明的具体技术方案。

当使用基于机器学习模型的方法进行电网运行层面的暂态电压安全分析时，需要考虑以下四类要素：

(1)输入特征：需要包含故障flt、电网运行状态x₀、电网拓扑参数topo这三类电网信息；

(2)输出结果：暂态电压安全分析的结果，可以是定性结果(0/1量)或定量结果(连续量)，本发明中默认输出结果是TVSI指标，是连续量；

(3)样本集：用于训练机器学习模型的知识，可以基于数值仿真或PMU得到。对于事故前的分析，通常基于数值仿真生成样本；

(4)机器学习模型。从样本集中学习知识，用于对待评估电网运行场景进行暂态电压安全分析。

基于机器学习模型进行暂态电压安全分析的总体思路如图1所示。首先需要得到样本集，然后基于样本集建立并训练机器学习模型。在应用机器学习模型进行分析时，首先需要把待评估电网运行场景转化成输入特征的格式，然后使用机器学习模型计算TVSI指标并输出。

当用于大规模电网的在线暂态电压安全分析时，基于机器学习模型的方法主要有两方面挑战：(1)泛化能力差。在线运行中电网运行场景不断变化，可能出现模型训练中没有考虑到的电网拓扑或预想故障，此时机器学习模型的输出结果精度较差，有必要进行更新。(2)训练速度慢。大规模电网的输入特征维度高，为此需要建立结构复杂的机器学习模型，需要的样本数量大。由于需要基于数值仿真生成样本，计算复杂度高，导致生成样本耗时长、训练速度慢，难以针对电网运行场景变化及时地更新模型。

大规模电网的输入特征维度高，如果直接基于此建立机器学习模型，则需要的样本数量大，导致生成样本耗时长，不仅难以离线训练，而且难以在线更新。因此，需要对大规模电网的输入特征进行降维。由于无功电压问题的局域性特征，可以在分析一类相似的电网运行场景时只关注部分电网的输入特征量，进而降低输入特征维度。

基于上述思路，本发明提出了采用并联局域结构的机器学习模型，称为并联局域模型，记为

并联局域模型中包含多个局域模型，即子机器学习模型，子机器学习模型称为局域模型，记为

其中，每个子机器学习模型负责一类相似的电网运行场景，只需要关注部分电网的输入特征量，输入特征维度低，因而需要的训练样本少、训练速度快。在更新并联局域模型时，仅需改变单个局域模型，更新代价低、演化能力强。

基于并联局域结构的机器学习模型的结构如图2(a)所示。可见，各个局域模型相互之间没有依赖性。各个局域模型具有相同的输入和输出，它们的组合方式类似于元件并联。不同局域模型可以从完整输入信息中选择出不同的输入特征，体现了空间层面的解耦。局域模型的输出是TVSI指标，从多个时间维度量化评估了暂态电压过程，体现了时间层面的解耦。此外，由于每个局域模型只负责一部分运行场景，因此需要从电网输入特征到局域模型之间的匹配机制，把待评估的运行场景导向对应的局域模型。实际上，每个局域模型负责的一类相似运行场景对应于电网运行场景空间中的一块区域，称为局域模型的有效区域，如图2(b)所示。

下面将分别介绍并联局域模型的建立和训练过程。

一、并联局域模型的建立

(1.1)基于数值仿真生成样本；

样本的格式为：

X＝Case＝{flt,x₀,topo}，y＝TVSI

其中，X是样本的输入特征，也即为电网运行场景。y是样本的输出。

电网输入特征的可行域很大，导致在离线时难以完整地对其进行采样。即使离线采样时充分考虑了以往的运行经验，在线运行中仍可能出现运行经验之外的电网运行场景，对并联局域模型进行在线更新是必不可少的。因此，在离线建模阶段不必花费过多时间用于生成样本，仅针对典型电网运行场景的邻域进行采样即可。由于典型运行场景的邻域仅为电网输入特征可行域的一部分，因此可以降低离线生成样本的计算复杂度。基于数值仿真生成样本的步骤如表1所示。

表1基于数值仿真生成样本的步骤

(1.2)计算样本之间的相似度，进而对样本聚类；

样本相似度基于电网运行场景相似性量化方法进行计算。

由于聚类数量未知，因此首先使用凝聚层次聚类方法对样本集进行初步聚类，并观察聚类过程中相对合并距离与聚类数量之间的关系。如果某一步的相对合并距离突然增大，则说明不宜把样本聚成更少的簇，应该停止聚类，把此时的聚类数量记为c。然后使用k-means算法对初步聚类结果进行调优，聚类数量k＝c。在样本聚类之后，可以得到多个子样本集，子样本集记为

(1.3)针对每个子样本集分别建立一个局域模型；

局域模型的有效范围为子样本集在电网运行场景空间中的对应区域。把各个局域模型按照图2(a)的形式组合起来，就完成了并联局域模型的建立。此时，局域模型的输入特征、输出结果和样本集已经确定，局域模型使用的机器学习模型将在训练过程中择优选取。

二、并联局域模型的训练

(2.1)需要选择局域模型使用的机器学习模型。机器学习的一种实用化定义为：基于数据

和假设空间

使用算法

计算得出接近目标f的假设g，如图3所示。其中

是目标f的输入，

是目标f的输出。可见，与机器学习模型相关的部分包括假设空间

(可以理解为模型结构)和学习算法

其中，假设空间

决定了机器学习模型的能力上限，学习算法

使训练得到的g接近机器学习模型的能力上限。本发明基于现有的开源软件包训练机器学习模型，包括：Scikit-learn、Lightgbm和Tensorflow。软件包中的学习算法

已经成熟，主要考虑选择假设空间

(模型结构)即可。

通过算例对比分析，确定局域模型使用的机器学习模型。参与对比的机器学习模型包括：支持向量回归(SupportVectorRegression，SVR)、随机森林(RandomForest，RF)、深度神经网络(DeepNeuralNetwork，DNN)和梯度提升决策树(GradientBoostingDecisionTree，GBDT)。注意，由于并联局域模型将用于在线，必须能够快速地更新，而且更新时提供的样本数量有限，所以局域模型并不是越复杂越好。

然后，对子样本集进行特征选择，其目的是降低局域模型的输入特征维度，进而降低需要的样本数量、提高训练速度。

定义子样本集

的中心

表达式如下：

其中，

是第k个子样本集，它与第k个局域模型

对应，

是

中第i个运行场景的TVSI指标矩阵，n_k是

中样本的数量。

即为子样本集

的中心，其物理含义为

内运行场景的TVSI指标矩阵的平均值。

定义子样本集

的代表运行场景Case^c，表达式如下：

其中，

是TVSI指标第t个分量的权重系数，默认取

是

中第i个运行场景的TVSI指标矩阵，

是

的中心。Case^c即为子样本集

的代表运行场景，其物理含义为与

的中心

相似度最高的运行场景。

则子样本集

在特征选择后的输入特征X^local表达式如下：

其中，

f^flt:

f^topo:

X＝{flt,x0,topo}

X是样本的完整输入特征。

和

分别是

中出现的故障flt和电网拓扑参数topo，

和

和

建立了从{flt,x₀,topo}到

的映射f^flt、

和f^topo，进而得到X^local。flt^local、

中电网拓扑参数的投运状态标志，维度低于topo；

的具体定义如表2所示。注意，由于本发明研究重点是暂态电压安全评估和优化，因此表2中仅列出了这两个运行场景中将会用到的电网运行状态变量。

表2从x₀到

的映射关系

通过特征选择，降低了局域模型的输入特征维度，不仅可以降低需要的样本数量、提高训练速度，而且可以降低过拟合风险。

(2.2)基于特征选择后的子样本集训练局域模型。本发明基于知名开源软件包训练机器学习模型，主要关注超参数(hyper parameter)的调优。以GBDT为例，训练过程中可以调节的超参数如表3所示。在训练GBDT过程中，把样本集分成了三部分，分别为训练集、验证集和测试集。训练集用于训练GBDT，验证集用于调优GBDT的超参数，测试集用于评估GBDT的性能。

表3GBDT的主要超参数

本发明中提出了从电网输入特征到局域模型之间的匹配机制，并介绍了基于并联局域模型进行暂态电压安全分析的过程。

(3.1)从电网输入特征到局域模型之间的匹配机制；

为了建立匹配机制，首先需要量化局域模型的有效范围边界。由于局域模型的有效范围是通过样本聚类划定的，因此无法解析表达。为此，本发明提出了一种基于主成分分析(Principal Component Analysis，PCA)的匹配方法。其主要思路为：基于PCA提取子样本集的关键特征，然后计算各个子样本集的关键特征与待评估电网运行场景之间的匹配度，进而找出与待评估运行场景匹配度最高的局域模型。

PCA是一种数据降维和特征提取方法。假设数据集为

其中X的每行对应一个数据样本。通过PCA可以得到X的特征矩阵

Y＝XW^k

其中，

是降维后的数据集。

基于降维后的数据集Y可以还原数据集X，计算表达式为：

其中，

是对数据集X的近似。

由于使用PCA进行数据降维存在信息损失，因此

不等于X。不过，如果特征矩阵W的前k列包含了X的主要特征，则

与X之间的差别很小。

例如在图4中，编号1○和编号2○表示数据点。如果对数据点沿PCA特征向量1方向降维后再还原，将可以得到数据点在PCA特征向量1上面的投影。对比数据点与投影之间的差异，可以发现编号1○○与其投影之间的差异小于编号2○与其投影之间的差异。编号1○在特征向量1方向上的分布比较分散，在特征向量2方向上的分布比较集中，因此特征向量1可以反映编号1○的主要特征。相比之下，编号2○在编号1○的分布外，特征向量1不能反映编号2○的主要特征。可见，如果数据点x在数据集X服从的分布内，则特征矩阵W的前k列包含了x的主要特征，对x降维后再还原的误差小；否则，对x降维后再还原的误差大。PCA算法的这个性质可以用于计算局域模型与待评估运行场景之间的匹配度。

对于局域模型

对应的子样本集

假设

中样本的输入特征x服从分布Φ^x。对由

之间的匹配度m^local的计算表达式为：

其中，

是编号k的局域模型

对应的特征向量矩阵的前k列，

是待评估运行场景与

之间的匹配度。

其中，k^*是与待评估运行场景匹配度最高的局域模型编号。

编号k^*的局域模型

即为待评估运行场景匹配到的局域模型。

(3.2)基于并联局域模型进行暂态电压安全分析；

基于并联局域模型计算TVSI指标的过程如图5所示。

并联局域模型的输入是电网输入特征，通过匹配机制把待评估运行场景导向了匹配的局域模型，该局域模型输出的TVSI指标即为并联局域模型的输出结果。对于某一个待评估运行场景，有且仅有一个局域模型是有效的，因此局域模型的组合方式也类似于总线结构。

以上展示了并联局域模型建立、训练和应用方法。以下结合实例说明。

各算例的通用边界条件如下：负荷模型是由感应电动机与恒阻抗负荷组合成的综合负荷，其中感应电动机占比60％。

(1)并联局域模型的建立

本算例采用IEEE39节点模型。考虑的故障表4所示，考虑的电网拓扑参数如表5所示，考虑的典型电网运行状态如表6所示，初始运行场景数量为5×5×4＝100。

表4故障信息

表5电网拓扑参数信息

表6典型电网运行状态信息

针对每个初始运行场景生成1000个样本，总样本量为100000，耗时1.98×10³s。样本输入特征维度为131，其中x₀＝{P_g,P_l,Q_c,Q_l,Q_f,V_g,x_s,x_t}。

得到样本集后，对样本聚类。由于层次聚类方法用于大规模数据集时占用内存过大，故从样本集中随机抽取10000个样本进行初步聚类。初步聚类耗时2.01s，聚类过程如图6所示。可见，聚类数量为12时出现了拐点，说明不宜把样本聚成更少的簇，应该停止聚类。然后，使用k-means算法对完整样本集进行聚类，聚类数量k＝12，耗时11.21s。

聚类之后，得到12个子样本集，进而建立12个局域模型，局域模型使用GBDT。训练12个局域模型耗时84.7s，各个局域模型输出的均方误差如表7所示。

表7各个局域模型输出的均方误差

对12个局域模型输出的均方误差取平均值，得到TVSI指标三个分量的平均均方误差分别为8.36×10^-7、3.49×10^-4和2.35×10^-4。可见，局域模型输出的误差很小，说明并联局域模型的建模方法有效。

(2)电网运行状态x₀采用不同定义时局域模型的性能对比

本算例采用IEEE39节点模型。考虑线路“Bus15-Bus16”上的三相N-1故障，故障持续时间为250ms，考虑初始的电网拓扑参数和电网运行状态，初始运行场景数量为1。针对考虑的1种初始运行场景生成5000个样本，耗时99.1s。

比较两种电网运行状态x₀定义下局域模型的性能。在第一种定义中，电网运行状态x₀＝{P_g,P_l,Q_c,Q_l,Q_f,V_g,x_s,x_t}，输入特征维度为131；在第二种定义中，x₀＝{P_g,P_l,P_ac,P_t,Q_g,Q_c,Q_l,Q_f,Q_s,Q_ac,Q_t,V_bs}，输入特征维度为262。可见，第一种定义中认为部分电网运行信息未知，对应无功优化应用场景；第二种定义中认为全部电网运行信息已知，对应安全评估应用场景。局域模型使用GBDT。采用这两种x₀定义时局域模型的性能对比结果如所示。

表8采用不同x₀定义时局域模型的性能对比

相比之下，采用第二种x₀定义时局域模型输出TVSI指标的均方误差更小，但是训练时间更长。不过，采用第二种x₀定义时的训练时间也仅占生成样本耗时的4.73％，说明局域模型的训练速度不是瓶颈，因此采用第二种x₀定义时局域模型的综合性能更好。可见x₀中的电网运行信息越完整，局域模型的综合性能越好。

(3)局域模型使用不同机器学习模型时的性能对比

本算例采用IEEE39节点模型。考虑线路“Bus15-Bus16”上的三相N-1故障，故障持续时间为250ms，考虑初始的电网拓扑参数和电网运行状态，初始运行场景数量为1。针对考虑的1种初始运行场景生成20000个样本，耗时399.4s。样本输入特征维度为131，其中x₀＝{P_g,P_l,Q_c,Q_l,Q_f,V_g,x_s,x_t}。

参与比较的机器学习模型包括SVR(支持向量回归)、RF(随机森林)、DNN(深度神经网络)和GBDT(梯度提升决策树)，性能对比如表9-表12所示。

表9TVSI₁均方误差对比

表10TVSI₂均方误差对比

表11TVSI₃均方误差对比

表12训练时间对比(单位：s)

由于基于数值仿真生成样本的计算复杂度高，因此在线更新并联局域模型的可用样本数量有限。本发明中，重点对比这四种机器学习模型在样本量为1000和5000时的性能。

首先对比均方误差。当样本量为1000时，TVSI指标三个分量均方误差最小的机器学习模型都是GBDT；当样本量为5000时，TVSI₁均方误差最小的机器学习模型是RF，TVSI₂、TVSI₃均方误差最小的机器学习模型是GBDT。不过，由于四种机器学习模型输出的TVSI₁均方误差都很小，RF在TVSI₁方面的优势并不关键。接下来对比训练时间。当样本量为1000时，训练耗时最少的是SVR，但是训练耗时最多的DNN也只需要2.42s；当样本量为5000时，训练耗时最少的是GBDT，而且优势十分明显，仅为其他三种模型耗时的几分之一。因此，在样本量为1000和5000时GBDT的综合性能最优。

此外，对比GBDT在不同样本规模下的均方误差，可以发现当样本量从1000增加到5000时TVSI指标三个分量的均方误差都有显著的下降，但是当样本量从5000增加到20000时TVSI指标三个分量的均方误差的下降幅度都比较小。因此，样本量为5000左右时是GBDT性能的拐点，后续算例中默认给每个局域模型分配大约5000个训练样本。

(4)并联局域模型与现有机器学习模型的性能对比

本算例采用陕西电网模型。考虑13个交流线路的三相N-1故障，如表13所示，考虑高峰、腰荷和低谷这三种电网运行方式，初始运行场景数量为13×3＝39。

表13故障信息

针对每个初始运行场景生成2000个样本，总样本量为78000，耗时1.56×10⁴s。样本输入特征维度为1520，其中x₀＝{P_g,P_l,Q_c,Q_l,Q_f,V_g,x_s,x_t}。对样本聚类，得到14个子样本集，进而建立14个局域模型。在对各个子样本集进行特征选择后，14个局域模型的输入特征维度都在175～194之间，仅为初始输入特征维度的11.5％～12.7％，降维效果显著。

参与比较的机器学习模型包括SVR、RF、DNN、GBDT和并联局域模型，性能对比如表15所示。其中，局域模型使用GBDT。

表15并联局域模型与现有机器学习模型的性能对比

注意，这里的“GBDT”指用完整样本集训练一个GBDT，与并联局域模型不同。相比之下，并联局域模型输出的TVSI指标三个分量均方误差都最小，而且训练耗时也最少，因此并联局域模型的综合性能最优。实际上，局域模型使用的都是GBDT，但是并联局域模型的性能却比GBDT的性能更好。可见，并联局域模型的性能提升主要来源于其采用的并联局域结构。

(5)并联局域模型的应用

本算例采用陕西电网模型。使用(3)建立的并联局域模型计算待评估电网运行场景的TVSI指标。对14个子样本集分别进行PCA，得到14个特征矩阵W^local，选择W^local的前50列作为子样本集的特征向量。对于待评估运行场景，首先计算它与14个局域模型之间的匹配度指标，如表16所示。

表16待评估运行场景与各个局域模型之间的匹配度指标

相比之下，9号局域模型的匹配度指标最大，因此选用局域模型

计算待评估运行场景的TVSI指标。此外，本算例还将使用5号和10号局域模型计算待评估运行场景的TVSI指标，并与使用

的计算结果进行对比，如表17所示。

表17TVSI指标计算结果对比

其中，基于数值仿真计算的TVSI指标是真实值。使用5号和10号局域模型计算的TVSI指标三个分量与真实值的平均绝对偏差分别为0.0055、0.0949和0.1250，而使用9号局域模型计算结果的绝对偏差分别为0.0011、0.0342和0.0071。相比之下，使用9号局域模型计算的TVSI指标三个分量都与真实值更接近，说明基于本发明提出的匹配度指标选择局域模型合理。

Claims

1.基于机器学习模型进行暂态电压安全分析方法，其特征在于，包括以下步骤：

一、建立并联局域模型；

(1.1)基于数值仿真生成样本；

(1.2)计算样本之间的相似度，进而对样本聚类；

(1.3)针对每个子样本集分别建立一个局域模型；局域模型的有效范围为子样本集在电网运行场景空间中的对应区域；把各个局域模型按照并联形式组合起来，完成并联局域模型的建立；

二、并联局域模型的训练

(2.1)选择局域模型使用的机器学习模型；然后，对子样本集进行特征选择，降低局域模型的输入特征维度；

(2.2)基于特征选择后的子样本集训练局域模型；

(3.1)从电网输入特征到局域模型之间的匹配机制

量化局域模型的有效范围边界，得出与待评估运行场景匹配度最高的局域模型编号；

(3.2)基于并联局域模型进行暂态电压安全分析

2.根据权利要求1所述的基于机器学习模型进行暂态电压安全分析方法，其特征在于，所述的并联局域模型，为考虑时空解耦特性的电力系统并联局域机器学习模型，记为

多个子机器学习模型并联，每个子机器学习模型负责一类相似的电网运行场景；

局域模型的输出是TVSI指标，从多个时间维度量化评估了暂态电压过程，体现了时间层面的解耦；

把待评估的运行场景导向对应的局域模型；每个局域模型负责的一类相似运行场景对应于电网运行场景空间中的一块区域，称为局域模型的有效区域。

3.根据权利要求1所述的基于机器学习模型进行暂态电压安全分析方法，其特征在于，步骤一的(1.1)基于数值仿真生成样本中，样本的格式为：

X＝Case＝{flt,x₀,topo}，y＝TVSI

其中，X是样本的输入特征，也即为电网运行场景；输入特征：需要包含故障flt、电网运行状态x₀、电网拓扑参数topo这三类电网信息；y是样本的输出；

对典型电网运行场景的邻域进行采样，基于数值仿真生成样本。

4.根据权利要求3所述的基于机器学习模型进行暂态电压安全分析方法，其特征在于，所述的基于数值仿真生成样本的方法为：

准备工作：调研电网的典型故障flt、电网运行状态x₀和电网拓扑参数topo；设定离线样本集规模N；

步骤1：对flt、x₀和topo进行组合得到初始运行场景集合

步骤2：在

基础上改变电网运行状态x₀，进行数值仿真；

步骤3：计算仿真结果的TVSI指标，生成样本，把样本添加到离线样本集；

5.根据权利要求1所述的基于机器学习模型进行暂态电压安全分析方法，其特征在于，步骤一的(1.2)对样本聚类，使用凝聚层次聚类方法对样本集进行初步聚类，并观察聚类过程中相对合并距离与聚类数量之间的关系；如果某一步的相对合并距离突然增大，则说明不宜把样本聚成更少的簇，停止聚类，把此时的聚类数量记为c；然后使用k-means算法对初步聚类结果进行调优，聚类数量k＝c；在样本聚类之后，得到多个子样本集，子样本集记为