CN108090615B

CN108090615B - 基于交叉熵集成学习的电力系统故障后最低频率预测方法

Info

Publication number: CN108090615B
Application number: CN201711390235.6A
Authority: CN
Inventors: 汤奕; 崔晗; 王�琦; 李峰
Original assignee: Southeast University; Liyang Research Institute of Southeast University
Current assignee: Southeast University; Liyang Research Institute of Southeast University
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2021-10-08
Anticipated expiration: 2037-12-21
Also published as: CN108090615A

Abstract

本发明公开了一种基于交叉熵集成学习的电力系统故障后最低频率预测方法，该方法包括以下步骤：(1)通过仿真设置不同类型的暂态故障；(2)根据数据样本进行算法离线训练；(3)通过多个基学习器的交叉熵计算得到集成学习模型进行在线故障后频率预测。本发明的集成学习算法具有较强扩展性，可以根据实际需求改变基学习器数量实现精度和计算资源的平衡；能够快速准确预测电力系统故障后最低频率，具有较好的稳定性，且能够适应实际电网中故障数据不足的场景，相比其他算法样本数量依赖性弱；在实际应用本发明能够尽量减少因个体基学习器随机误差导致的预测误差，实现可靠预判。

Description

基于交叉熵集成学习的电力系统故障后最低频率预测方法

技术领域

本发明涉及电力技术领域，具体涉及一种基于交叉熵集成学习的电力系统故障后最低频率预测方法。

背景技术

随着特高压交直流混联电网建设的推进，电网运行特性发生了根本变化。特高压交直流输电线路故障可能造成输送功率大幅波动，使送受端电网发生严重频率稳定问题的风险增加。因此需要及时对电网受扰后的频率动态特性进行研究，准确预测其态势，为后续安全稳定控制提供依据。电网频率动态过程时间跨度较长，涉及多个时间尺度的电网控制问题。

影响电网受扰后频率动态特性的因素主要有故障类型、故障地点、电网当前运行状态、发电机组/负荷参数、网络拓扑结构等，现有的电网频率动态分析方法主要有全时域仿真法、单机等值模型法和机器学习方法。全时域仿真法通过求解高阶非线性微分方程组以获得电网各节点的频率动态变化过程，该方法计算精度高，但计算速度过慢使得其不适合用于系统受扰后的频率快速预测；以平均系统频率模型(Average System Frequency，ASF)和系统频率响应模型(System Frequency Response，SFR)为代表的等值模型法通过对系统的大量简化大幅提高计算速度，是目前在线应用的主流方法，但精度有限。

上述两类由物理模型出发的方法面临计算速度和计算精度之间难以调和的矛盾，因此，利用机器学习算法进行快速频率预测对于防止系统频率暂态问题具有辅助作用。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于交叉熵集成学习的电力系统故障后最低频率预测方法，该方法可以解决预测电力系统故障后最低频率速度和精度之间的平衡以及对数据样本依赖性大的问题。

技术方案：本发明所述的基于交叉熵集成学习的电力系统故障后最低频率预测方法，该方法包括以下步骤：

(1)通过仿真设置不同类型的暂态故障；

(2)根据数据样本进行算法离线训练；

(3)通过多个基学习器的交叉熵计算得到集成学习模型进行在线故障后频率预测。

优选的，步骤(1)中，所述仿真设置包括：

(11)设置仿真参数，所述仿真参数包括故障类型、故障地点和故障严重程度；

(12)读取仿真后频率态势数据，记录暂态过程的最低频率。

优选的，步骤(2)中，所述算法离线训练包括：

(21)将所述仿真数据随机分为训练集和测试集，并分别对所述训练集和测试集进行数据预处理；

(22)对所述训练集合测试集进行特征筛选，得到可用于算法训练的样本；

(23)对所述多个基学习器进行算法训练，完成测试结果和仿真结果分布的交叉熵计算；

(24)根据各个基学习器交叉熵的结果进行集成学习算法权重确定，得到频率预测的集成学习模型。

优选的，步骤(22)中，所述特征筛选采用的方法为物理原理和数据分析相结合，具体为选取与电力系统频率问题存在强物理关联和强数据关联的特征。

优选的，步骤(23)中，所述对基学习器的交叉熵计算的公式为：

其中，D(p,q)为基学习器p和q的交叉熵，p为仿真结果集，q为测试结果集，w_i为第i个样本的权重，f_p为样本输入与仿真结果的映射关系，f_q为样本输入与预测结果的映射关系，x_i为第i个样本输入，i＝1,2,...,n。

优选的，步骤(24)中，所述集成学习算法权重的确定公式为：

其中，D_i为第i个基学习器测试结果与仿真结果的交叉熵，共n个基学习器，D_j为第j个基学习器测试结果与仿真结果的交叉熵，i＝1,2,...,n；最终的集成学习预测结果公式为：

其中，W_i为求取的第i个基学习器的权重，f_i为第i个基学习器的预测最低频率。

优选的，步骤(3)中，所述故障后频率预测算法包括：

(31)将所述测试集的格式写成所述算法训练样本的格式；

(32)将测试样本输入集成学习得到最低频率预测；

(33)对比所述算法训练样本中的仿真结果与所述最低频率预测结果，对比基学习器预测结果与所述最低频率预测结果；

(34)改变所述训练样本的数量，形成不同的频率预测模型，对比各个所述频率预测模型在不同训练样本数量条件下的精度与相同条件下基学习器的预测精度。

优选的，所述给定数据样本包括数据样本充足和不足两种条件下的算法离线训练，在样本不足时，本发明的优势更明显。

有益效果：本发明与现有技术相比，其显著优点是：1、本发明的集成学习算法具有较强扩展性，可以根据实际需求改变基学习器数量实现精度和计算资源的平衡；2、能够快速准确预测电力系统故障后最低频率，具有较好的稳定性，且能够适应实际电网中故障数据不足的场景，相比其他算法样本数量依赖性弱；3、在实际应用本发明能够尽量减少因个体基学习器随机误差导致的预测误差，实现可靠预判。

附图说明

图1为系统故障后频率预测流程图；

图2为测试系统WSCC9的电网拓扑图；

图3为WSCC9频率预测结果；

图4为测试系统New England39的电网拓扑图；

图5为New England39频率预测结果；

图6为New England39改变训练样本后频率预测误差比较。

具体实施方式

实施例1

如图1，该方法包括以下步骤：步骤1、通过仿真设置不同类型的暂态故障。

其中，仿真设置包括：设置仿真参数，仿真参数包括故障类型、故障地点和故障严重程度；故障类型、故障地点以及故障严重程度服从随机分布，其中故障类型包括三相短路接地、两相短路接地、线路断路等，故障地点遍布系统中各节点，故障导致的功率缺额服从高斯分布或其他随机分布，故障严重程度根据每一个故障地点功率扰动的大小来度量。然后读取仿真后频率态势数据，记录暂态过程的最低频率。

步骤2、根据数据样本进行算法离线训练。

其中，算法离线训练包括：将仿真数据随机分为训练集和测试集，并分别对训练集和测试集进行数据预处理，此处数据预处理主要为归一化，剔除异常值；然后对训练集合测试集进行特征筛选，可进行选取特征值和降维的结果，最后得到可用于算法训练的样本；特征筛选采用的方法为物理原理和数据分析相结合，具体为选取与电力系统频率问题存在强物理关联和强数据关联的特征，包括发电机功率、惯性时间常数、转动惯量、负荷容量、潮流分布等。最后，对多个基学习器进行算法训练，完成测试结果和仿真结果分布的交叉熵计算；对基学习器的交叉熵计算的公式为：

其中，D(p,q)为基学习器p和q的交叉熵，p为仿真结果集，q为测试结果集，w_i为第i个样本的权重，f_p为样本输入与仿真结果的映射关系，f_q为样本输入与预测结果的映射关系，x_i为第i个样本输入，i＝1,2,...,n。(24)根据各个基学习器交叉熵的结果进行集成学习算法权重确定，得到频率预测的集成学习模型；集成学习算法权重的确定公式为：

步骤3、通过多个基学习器的交叉熵计算得到集成学习模型进行在线故障后频率预测。

故障后频率预测算法包括：将所述测试集的格式写成所述算法训练样本的格式，即包括特征值和仿真结果；将测试样本输入集成学习得到最低频率预测；对比所述算法训练样本中的仿真结果与所述最低频率预测结果，对比基学习器预测结果与所述最低频率预测结果；最后，改变所述训练样本的数量，形成不同的频率预测模型，对比各个所述频率预测模型在不同训练样本数量条件下的精度与相同条件下基学习器的预测精度。

通过通过改变训练样本数量比较集成学习算法在应用中对于数据不足的情况相比各基学习器的优势。主要的考察指标为：

以上分别对应为相对误差、绝对误差、均方根误差，f_p为输入样本与预测频率的映射关系，f_t为输入样本与真实频率的映射关系，x_i为第i个输入样本。

如图2，本实施例采用标准WSCC三机九节点作为测试系统，比较单一基学习器与交叉熵集成学习的系统最低频率预测精度。

测试实施例所使用的样本由Matlab PSTv3.0软件包仿真产生，样本中所涉及参数均以标幺值表示。首先，在仿真模型中模拟测试系统的不同运行工况，包括系统整体负荷水平、节点注入功率。其中，整体负荷水平设置为[0.8，1.2]间的均匀分布，节点注入功率设置为正态分布，期望为1，方差为0.1；其次，设置发生不平衡功率扰动地点和大小，服从均匀分布，其中扰动地点为系统中任一节点，扰动大小属于区间[0.1，1.2]，最后，经过不同运行参数的大量仿真，得到测试系统在功率扰动后的最低频率。在三机九节点和十机三十九节点系统中分别将仿真数据整理得到机器学习样本600和1080组。

实施例的测试平台为InterI Core i5-5200U，8G，Matlab R2016b，采用相对误差e_r、平均绝对误差MAE和均方根误差RMSE作为评估指标。

其中，x_i表示第i个样本输入向量，f_p为最低频率预测模型，f_t为最低频率真实模型，50代表系统初始状态均为额定频率50Hz，n为测试样本数量。

针对实施例，在WSCC 9系统，将五种常用回归算法作为候选基学习器，进行平均法集成，分别计算各回归算法的分歧和相对误差，作为选择集成算法基学习器的依据。各算法配置过程如下：

决策树算法采用CART，即Classification and regression tree作为划分节点的算法，即通过计算分类基尼系数决定特征属性的顺序。形成完整回归树后采取迭代剪枝，依据叶节点数和误差两个因素决定裁剪规模。

多元线性回归算法，设置训练样本的自变量为各节点有功功率和无功功率，因变量为扰动后的最低频率。参数计算中，设置显著性水平为0.05，以误差平方和作为优化目标进行回归参数最小二乘法求解。

本实施例使用的人工神经网络(artificial neural network，ANN)为双层前馈神经网络，包括隐含层和输出层。可设置的参数为隐含层节点数，设置为输入与输出节点的平均值。设置神经网络最大迭代数为1000次，并且当连续20次迭代没有训练精度提升时，终止迭代，训练采用10折交叉验证以提高泛化能力。

在最小二乘支持向量机(least-square support vector machine，LSSVM)中，有两个参数需要设置，正则参数gam，它取决于训练误差最小化和平滑程度之间的权衡程度，核宽sig2，在高斯核函数中，它代表了核函数带宽的平方。为了提高的预测精度，采用leave-one-out CV优化参数配置。

在ELM配置时，本实施例样本具有属性集简单且分布均匀的特点，因此激活函数选取最广泛适应的Sigmoid函数。ELM的隐含节点数决定了模型的复杂程度，当隐含节点数过少时难以拟合复杂的数学关系，而隐含节点过多可能会出现过拟合和训练时间较

长的问题。根据训练样本进行优化，采用二分法多次测试后决定隐含节点数。

各回归算法训练完成后进行平均法集成，计算其差异和误差，如下表所示：

表1 WSCC 9基学习器差异与误差对比

考查的五个基学习器中，决策树算法分歧为0.31最小，难以提高集成算法多样性；多元线性回归算法误差较大，降低了整体精度；其余三个基学习器均有相对较高的分歧和较低的误差。基学习器分歧大且误差低，集成模型预测结果更精确，因此选取ANN、LSSVM和ELM作为WSCC 9系统集成算法的基学习器。

在WSCC系统中，共计9个节点，包含3个发电机节点和6个PQ节点。基于样本维度选取训练样本数为90，测试样本数是为60，以保证算法能够充分训练，且测试结果准确可靠，训练完成的算法模型ANN、ELM、LSSVM进行交叉熵计算。

测试样本根据扰动大小编号升序排列，分析可知大扰动数据在交叉熵计算中占比较大，主要是因为计算公式将扰动量纳入其中。因此，交叉熵结果受大扰动预测性能影响明显，体现在基学习器权重分配中，过程如下。

首先，在样本库中随机选出一个训练样本集，输入待训练的基学习器。根据各学习器测试结果，计算预测结果与真实样本输出的交叉熵，计算公式如下：

D(p,q)为预测结果p和真实数据q的交叉熵，n为样本数量，f_p和f_q分别为预测频率和真实频率。

交叉熵小，表明基学习器性能优异，因此集成权重较大，需要将交叉熵进行变换处理，公式如下：

其中，D_i为第i个基学习器测试结果与仿真结果的交叉熵，共n个基学习器，D_j为第j个基学习器测试结果与仿真结果的交叉熵，i＝1,2,...,n。

依照上述方法及公式，权重计算结果如表2所示：

表2集成学习权重

基学习器	ANN	SVM	ELM
				权重	0.3913	0.2047	0.4040

多种算法的测试误差对比如图3所示：

表3误差评价指标对比

算法	e<sub>r</sub>	eMAE	eRMSE
				ANN	10.75％	0.0626	0.0829
LSSVM	9.77％	0.0606	0.0859
				ELM	11.98％	0.1198	0.1469
本发明	6.67％	0.0377	0.0523

根据上述表格数据可知，三种单一机器学习算法预测误差都较低，以相对误差为例分析，相对误差为9.77％～11.98％。分析WSCC系统可知，该系统中系统状态量较少，潮流关系相对简单，加之样本量充足，因而能够取得较好的结果。交叉熵集成学习取得了更优的预测效果，预测误差仅为6.67％。根据集成学习的原理可知，该算法通过交叉熵加权平均降低了单一算法的预测误差，从而提高了预测精度。

实施例2

如图4，在New England十机三十九节点系统中，分析了在训练样本量不足的情况下本发明的技术效果。

针对实施例，在NewEngland 39系统中，将五种常用回归算法作为候选基学习器，进行平均法集成，分别计算各回归算法的“分歧”和相对误差，作为选择集成算法基学习器的依据。各算法配置过程如下：

决策树算法采用Classification and regression tree(CART)作为划分节点的算法，即通过计算分类基尼系数决定特征属性的顺序。形成完整回归树后采取迭代剪枝，依据叶节点数和误差两个因素决定裁剪规模。

在ELM配置时，本实施例样本具有属性集简单且分布均匀的特点，因此激活函数选取最广泛适应的Sigmoid函数。ELM的隐含节点数决定了模型的复杂程度，当隐含节点数过少时难以拟合复杂的数学关系，而隐含节点过多可能会出现过拟合和训练时间较长的问题。根据训练样本进行优化，采用二分法多次测试后决定隐含节点数。

表4 New England 39基学习器差异与误差对比

从表4中数据可知，综合考虑算法精度和差异性，实施例New England 39系统集成算法同样选取ANN、LSSVM和ELM作为集成学习基学习器。

在New England 39节点系统中，样本维度较高，为了达到较高准确度，机器学习所需的训练样本数量也相应提高。在真实电力系统中，实际的历史数据绝大多数为小扰动下的稳态运行数据，大扰动数据较少。因此，机器学习算法在实际电力系统中，难以拟合大扰动后频率跌落的真实数值关系。本实施例提出的交叉熵集成学习算法尝试通过多种方法充分挖掘有限数量的样本信息，解决训练样本不足场景下的预测精度问题，测试本发明提出的算法性能，选取训练样本数为200，测试样本数为108。

由于训练样本不足，单个样本交叉熵较大，在大扰动样本体现更为明显，说明了该算法对大扰动样本的着重处理，基学习器权重如表5所示：

表5集成学习权重

基学习器	ANN	LSSVM	ELM
				权重	0.3139	0.3570	0.3291

表6误差评价指标对比

	相对误差	绝对误差	均方根误差
				ANN	17.10％	0.1003	0.1418
LSSVM	17.82％	0.0985	0.1514
				ELM	17.58％	0.1088	0.1752
本发明	13.58％	0.0860	0.1411

以相对误差为例分析，如图5，采用单一机器学习算法预测最低频率的相对误差较大，为17.1％～17.82％，原因是训练样本量不足，算法欠拟合。采用本发明方法频率预测误差为13.62％，体现出更好的预测精度，证明了交叉熵集成学习方法在样本不足情况下相比于单一机器学习算法的优势。为了进一步阐述训练样本量与预测精度的关系，多次调整训练样本数量，测试结果如图6所示。体现出的趋势为：

1、随着样本量增加，单一机器学习预测误差不断降低，到达12％-14％后，趋于稳定。

2、三种机器学习算法在不同样本量中的预测精度互有高低，总体看来LSSVM的误差较大。

3、从交叉熵集成学习与其他方法误差差值变化曲线看出，在样本量较大时，本发明方法误差与单一机器学习方法相近，当样本量较小时，该方法逐渐体现出优势，与单一学习算法拉开差距，主要原因是样本量较小后的单一机器学习方法难以拟合真实数量关系，偏差增大，而集成学习通过加权平均降低了偏差。

综上，在WSCC9系统中，验证了交叉熵集成学习算法在样本充足情况下，预测效果优于单一基学习器；在IEEE39系统中，设置样本不足的情况，对比本发明方法与单一基学习器，本发明方法预测精度更高，且样本越少，本专利方法体现出越明显的优势。

本方法不限于这两种电力系统，也不限于在WSCC9系统中样本充足或者在IEEE39系统中样本不足的情况，其他电力系统有同样的技术效果。

Claims

1.一种基于交叉熵集成学习的电力系统故障后最低频率预测方法，其特征在于，该方法包括以下步骤：

(1)通过仿真设置不同类型的暂态故障；

步骤(1)中，所述仿真设置包括：

(12)读取仿真后频率态势数据，记录暂态过程的最低频率，得到仿真数据；

(2)根据数据样本进行算法离线训练；

步骤(2)中，所述算法离线训练包括：

(22)对所述训练集和测试集进行特征筛选，得到可用于算法训练的样本；

(23)将所述训练集的格式记为包括特征值和仿真结果集，并采用特征值对多个基学习器进行算法训练，得到多个基学习器的测试结果集，对多个基学习器的测试结果集和所述仿真结果集分布的交叉熵计算；

(24)根据各个基学习器交叉熵的结果进行集成学习算法权重确定，得到频率预测的集成学习模型；

(3)通过测试集对多个基学习器的交叉熵计算得到的集成学习模型进行在线故障后频率预测；

步骤(3)中，所述故障后频率预测算法包括：

(31)将所述测试集的格式写成步骤(23)中训练集的格式；

(32)将特征值输入集成学习模型得到最低频率预测；

(33)对比测试集中的仿真结果与最低频率预测的结果，对比基学习器测试结果与最低频率预测的结果；

(34)改变测试集中样本的数量，形成不同的频率预测模型，对比各个所述频率预测模型在不同测试集数量条件下的精度与相同条件下基学习器下的预测精度。

2.根据权利要求1所述的基于交叉熵集成学习的电力系统故障后最低频率预测方法，其特征在于，步骤(22)中，所述特征筛选采用的方法为物理原理和数据分析相结合，包括发电机功率、惯性时间常数、转动惯量、负荷容量和潮流分布。

3.根据权利要求1所述的基于交叉熵集成学习的电力系统故障后最低频率预测方法，其特征在于，步骤(23)中，对基学习器的交叉熵计算的公式为：

其中，D(p,q)为基学习器p和q的交叉熵，p为仿真结果集，q为测试结果集，w_i为第i个样本的权重，f_p为样本输入与仿真结果的映射关系，f_q为样本输入与测试结果的映射关系，x_i为第i个样本输入，i＝1,2,...,n，其中n为样本个数。

4.根据权利要求1所述的基于交叉熵集成学习的电力系统故障后最低频率预测方法，其特征在于，步骤(24)中，所述集成学习算法权重的确定公式为：

其中，D_k为第k个基学习器测试结果与仿真结果的交叉熵，共m个基学习器，D_j为第j个基学习器测试结果与仿真结果的交叉熵，j＝1,2,...,m；最终的集成学习预测结果公式为：

其中，W_k为求取的第k个基学习器的权重，f_k为第k个基学习器的预测最低频率。