CN113452018A

CN113452018A - 一种电力系统备用不足风险场景辨识方法

Info

Publication number: CN113452018A
Application number: CN202110725764.7A
Authority: CN
Inventors: 刘绚; 鲁文格; 于宗超; 褚旭; 刘懂
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-28
Anticipated expiration: 2041-06-29
Also published as: CN113452018B

Abstract

一种电力系统备用不足风险场景辨识方法，包括以下步骤：S1：选取影响正负备用的样本特征，构建初始样本集；S2：筛选互信息较大的样本特征作为训练样本特征，构建训练样本集；S3：构建决策树模型，根据训练样本集在各个训练样本特征划分下的基尼指数确定决策树模型的最优划分特征；S4：采用交叉验证法选取最优叶节点最小样本数；S5：生成带纠错机制的决策树序列；S6：对决策树序列进行剪枝，生成最优的带纠错编码的决策树序列；S7：对带纠错机制的决策树模型进行评估；S8：利用评估后的决策树模型进行电力系统备用不足风险场景辨识。本发明能实现对电力系统可能出现的正、负备用不足风险进行预判，从而保证电力系统的安全。

Description

一种电力系统备用不足风险场景辨识方法

技术领域

本发明涉及电力系统安全技术领域，具体是涉及一种电力系统备用不足风险场景辨识方法。

背景技术

近年来，各国风力发电量占电力系统总发电量的比例逐渐升高。然而，风电功率具有波动性和不确定性，这给电力系统的运行带来了极大的安全风险，比如功率不平衡、线路过载、正负备用不足等问题。在系统实时运行中，常规机组组合和调度计划已经提前确定，但由于风电出力的波动性和预测准确性有限，对于含有大规模风电接入的电力系统，经常因为风电出力的极端情况导致系统出现风险。例如，若实际风电出力远小于预测出力，即使开机的常规机组均达到最大出力也无法满足负荷需求，就会出现供电不足风险；若实际风电出力远大于预测出力，即使开机的常规机组均压到最小出力也无法满足风/光全额消纳，造成限电情况，出现负备用不足风险。

然而，针对电力系统备用不足风险，目前常通过用随机模拟方法模拟大量场景，然后用复杂且费时的计算方法来确定是否存在备用不足风险，整个过程非常费时，效率比较低，难以满足实时性的需求，因此亟需提出一种高效的满足实时性的在线风险场景辨识方法以保证电力系统的安全。

发明内容

本发明所要解决的技术问题是，克服上述背景技术的不足，提供一种电力系统备用不足风险场景辨识方法，能快速有效的辨识由于风电波动极端情况导致的电力系统备用不足风险，实现对电力系统可能出现的正、负备用不足风险进行预判，从而保证电力系统的安全。

本发明解决其技术问题采用的技术方案是，一种电力系统备用不足风险场景辨识方法，包括以下步骤：

S1：根据历史数据构建样本集合，选取影响正负备用的样本特征，得到候选的样本特征集合；设置样本集合中各样本的正、负备用不足风险类别标记，根据候选的样本特征集合和风险类别标记构建初始样本集；

S2：根据初始样本集，利用互信息法分别计算各个样本的样本特征X和风险类别标记Y之间的互信息，筛选互信息较大的样本特征作为训练样本特征，构建训练样本集D；

S3：基于训练样本特征和训练样本集D构建基于CART准则的决策树模型，采用连续型特征数据处理方法对取值为连续值的训练样本特征进行离散处理，根据训练样本集D在各个训练样本特征划分下的基尼指数确定决策树模型的最优划分特征；

S4：基于步骤S2构建的训练样本集D和步骤S3构建的基于CART准则的决策树模型，采用交叉验证法选取最优叶节点最小样本数；

S5：利用步骤S2构建的训练样本集D对步骤S3构建的基于CART准则的决策树模型进行训练从而生成二分类决策树T_s1，并利用步骤S4获得的最优叶节点最小样本数对决策树模型进行参数设置，经过多次训练生成带纠错机制的决策树序列T_st＝{T_s1,T_s2,…,T_sn}；

S6：采用迭代式后剪枝法对步骤S5生成的决策树序列T_st进行剪枝，最终生成最优的带纠错编码的决策树序列T_op；

S7：根据最优的带纠错机制的决策树序列T_ops，对带纠错机制的决策树模型进行评估，采用预测精度、查准率、查全率和F1度量对决策树模型进行评估；

S8：利用评估后的决策树模型进行电力系统备用不足风险场景辨识。

进一步，所述步骤S1中，根据正负备用不足的功率计算公式选取影响正负备用的样本特征，方法如下：

正备用不足的功率计算公式：

负备用不足的功率计算公式：

公式(1)和(2)中，

表示火电机组发电功率上限，

表示火电机组发电功率下限，PD_t为负荷，P_l,t为联络线功率，

为新能源功率概率预测值，

为电力系统正备用容量，

电力系统负备用容量，

是计算出的正备用不足功率值，

是计算出的负备用不足功率值；新能源功率概率预测值包括风电功率概率预测值和光伏功率概率预测值；

选取火电机组发电功率上限、火电机组发电功率下限、负荷、联络线功率、风电功率不同置信度水平下的概率预测值、光伏功率不同置信度水平下的概率预测值、电力系统正备用容量、电力系统负备用容量为样本特征。

进一步，所述步骤S1中，设置样本集合中各样本的正、负备用不足风险类别标记的方法如下：

当样本正备用不足功率值大于0时，则该样本正备用不足风险类别标记为1，否则为0；当样本负备用不足功率值大于0时，则该样本负备用不足风险类别标记为1，否则为0。

进一步，所述步骤S2中，样本特征X和风险类别标记Y之间的互信息量计算公式如下：

其中，p(x,y)是变量X和变量Y的联合概率分布函数，而p(x)是变量X的边缘概率分布函数；p(y)分别是变量Y的边缘概率分布函数，I(X；Y)表示变量X和变量Y的互信息量；互信息用来评价一个事件的出现对于另一个事件的出现所贡献的信息量。

进一步，所述步骤S3，包括以下步骤：

S3-1：对于取值为离散值的训练样本特征，根据训练样本集D计算在某个训练样本特征a划分下的样本集D^v的基尼值Gini(D^v)；

对于某一训练样本特征a，设训练样本集D在训练样本特征a上的取值集合为v，D^v表示训练样本集D中取值为a^v的样本集，D^v中含有样本类别数为n，样本集D^v的纯度可用基尼值衡量；基尼值Gini(D^v)计算公式如下：

其中，p_k表示样本集D^v中第k类样本所占的比例；

S3-2：根据基尼值Gini(D^v)计算训练样本集D在训练样本特征a划分下的基尼指数Gini_index(D,a)，计算公式如下：

v表示训练样本集D在训练样本特征a上的取值集合；D^v表示训练样本集D中取值为a^v的样本集；

S3-3：对于取值为连续值的训练样本特征，采用一种连续型特征数据处理方法对连续值的训练样本特征进行处理，处理方法如下：

对于训练样本集D和连续的训练样本特征a，设定训练样本特征a在训练样本集D上有m个不同取值，对取值进行升序排列，为{a¹,a²,…,a^m}，基于某个划分点s将训练样本集D划分为两个子集

和

分别包含划分点s两边的样本；对于连续的训练样本特征a，包含m-1个元素的候选划分点集合为：

S3-4：根据公式(6)产生的候选划分点集合S_a，根据公式(7)分别计算m-1个候选划分点的基尼指数：

式中，

表示连续的训练样本特征a基于划分点s划分下的样本集D_S的基尼值；

S3-5：选取基尼指数最小的候选划分点为最优划分点，最优划分点对应的基尼指数为连续的训练样本特征a的基尼指数；

S3-6：按步骤S3-1～S3-2的方法计算所有取值为离散值的训练样本特征的基尼指数，按步骤S3-3～S3-5的方法计算所有取值为连续值的训练样本特征的基尼指数，并选取每个取值为连续值的训练样本特征的最优划分点；

S3-7：将所有取值为离散值的训练样本特征的基尼指数及所有最优划分点下的基尼指数进行排序，取基尼指数最小的训练样本特征作为最优划分特征。

进一步，所述步骤S4，包括以下步骤：

S4-1：设置初始叶节点最小样本数k＝2；利用步骤S2得到的训练样本集D和步骤S3构建的决策树模型进行训练，采用n次n折交叉验证法计算交叉验证误差并记录误差值；

S4-2：设置新的叶节点最小样本数k：k＝k+1，对决策树模型进行训练，计算交叉验证误差并记录误差值；

S4-3：重复步骤S4-2，直至计算得到的交叉验证误差趋于稳定，对所有记录的不同叶节点最小样本数对应的交叉验证误差进行排序，选择最小的交叉验证误差对应的叶节点最小样本数作为最优叶节点最小样本数。

进一步，所述步骤S5中，生成带纠错机制决策树序列T_st＝{T_s1,T_s2,…,T_sn}，生成方法如下：

从步骤S2构建的训练样本集D中随机选取70％的样本组成训练集D1，15％的样本组成测试集，15％的样本组成验证集；采用训练集D1对基于CART准则的决策树模型进行训练从而生成二分类决策树T_s1，以此类推，每次随机选取上次训练集的70％的样本组成训练集，15％的样本组成测试集，15％的样本组成验证集，依次生成二分类决策树T_s2,…,T_sn，从而生成带纠错机制的决策树序列T_st＝{T_s1,T_s2,…,T_sn}。

进一步，所述步骤S5中，生成二分类决策树的方法如下：

根据样本数据进行多次随机选取训练集、测试集和验证集，从而生成sn个二分类决策树，将sn个二分类决策树组成的决策树序列组合起来得到每个类别的决策树序列结果编码序列{M₀,M₁}，当新样本输入该决策树序列，sn个二分类决策树分别给出一个分类结果，将该结果组合起来形成待分类样本编码M_new，然后分别将待分类样本编码与决策树序列生成的分类结果编码进行比较，取欧式距离最小的编码对应的分类为该新样本的最终分类。

进一步，所述步骤S6中，剪枝方法如下：

S6-1：对于决策树序列T_st中的决策树T，其叶节点个数为|T|，样本空间所属分类变量为K，t表示决策树T的一个叶节点，该叶节点有n_t个样本点，其中k类的样本点有

个，k∈{1,2,...,K}，则叶节点t上的经验熵为：

公式(8)中H_t(T)表示经验熵，代表叶节点t的分类的混乱程度，即连接该叶节点的整个路径对数据分类的彻底性；

S6-2：采用公式(9)衡量模型对训练样本集的整体测量误差，公式(9)如下：

S6-3：对利用训练集训练生成的决策树模型，自下而上遍历每个中间节点，对于中间节点j，计算其被剪枝后整体树的损失函数减少程度g(j)并记录，公式如下：

其中，T_j表示中间节点j对应的子树，|T_j|表示中间节点j对应子树T_j包含的叶节点个数；

S6-4：根据记录得到的决策树T的所有中间节点对应的损失函数减少程度g，选取最小的g对应的中间节点为剪枝节点，对该中间节点进行剪枝去除，得到新的决策树T₁；

S6-5：对新的决策树T₁利用步骤S6-1～S6-4的剪枝处理方法得到新的决策树T₂，以此下去进行递归不断得到新的决策树，直至新决策树不再具有内部节点，最终得到剪枝后的决策树序列T_list＝{T,T₁,T₂,…,T_N}；然后利用验证集对决策树序列T_list中所有决策树分别进行交叉验证误差估计，选择误差最小的决策树为原决策树T剪枝处理后的最优决策树T_op；

S6-6：利用步骤S6-1～S6-5的方法依次对决策树序列T_st中的各个决策树进行剪枝，从而得到最优的带纠错机制的决策树序列T_ops。

进一步，利用评估后的决策树模型进行电力系统备用不足风险场景辨识的方法如下：

根据电力系统实时采集的火电机组发电功率上限、火电机组发电功率下限、负荷、联络线功率、风电功率不同置信度水平下的概率预测值、光伏功率不同置信度水平下的概率预测值、电力系统正备用容量、电力系统负备用容量，输入待辨识的样本特征数据，利用最优的带纠错机制的决策树序列T_ops对输入样本进行分类预测得到预测结果编码，然后与已生成的分类结果编码进行欧氏距离求解，选择欧氏距离最小的分类结果编码作为最终的分类预测结果，输出该样本是否为正备用不足风险场景或者负备用不足风险场景。

与现有技术相比，本发明的优点如下：

(1)本发明针对风电功率波动的极端情况带来的电力系统备用不足问题，提出了一种电力系统备用不足风险场景辨识方法，避免了现存辨识方法计算复杂繁琐的缺点，相比于现存的备用不足风险场景辨识方法更加高效便捷。

(2)本发明采用的决策树模型可以同时处理连续性特征和离散性特征，克服基于CART准则的决策树只能处理离散型数据的缺点；另外，本发明利用交叉验证选取了最优的叶节点最小容量，以及采用的迭代式后剪枝方法可以最大程度的提升决策树的性能，对于提升电力系统备用不足风险场景辨识精度具有重要意义。

(3)本发明提出了一种带纠错编码的决策树模型，该模型具有一定的容错性，可以克服决策树出现的偶然性结果、偶发性错误以及样本偏差带来的结果误差等，对于提升决策树模型的性能具有重要意义，有助于提升电力系统备用不足风险场景辨识的精度。

附图说明

图1是本发明实施例的方法流程图。

图2是本发明实施例涉及的训练样本集构造示意图。

图3是本发明实施例涉及的决策树树状图示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细描述。

参照图1，本实施例电力系统备用不足风险场景辨识方法包括以下步骤：

S1：根据历史数据构建样本集合，选取影响正负备用的样本特征，得到候选的样本特征集合；设置样本集合中各样本的正、负备用不足风险类别标记，根据候选的样本特征集合和风险类别标记构建初始样本集。

步骤S1中，根据正负备用不足的功率计算公式选取影响正负备用的样本特征，方法如下：

正备用不足的功率计算公式：

负备用不足的功率计算公式：

公式(1)和(2)中，

表示火电机组发电功率上限，

为新能源功率概率预测值，

为电力系统正备用容量，

电力系统负备用容量，

是计算出的正备用不足功率值，

是计算出的负备用不足功率值。本发明中，新能源功率概率预测值包括风电功率概率预测值和光伏功率概率预测值。

设置样本集合中各样本的正、负备用不足风险类别标记的方法如下：

S2：根据初始样本集，利用互信息法分别计算各个样本的样本特征X和风险类别标记Y之间的互信息，筛选互信息较大的样本特征作为训练样本特征，构建训练样本集D。筛选互信息较大的样本特征的标准为：将互信息大小降序排列，选择互信息排列前14个的样本特征作为训练样本特征。

样本特征X和风险类别标记Y之间的互信息量计算公式如下：

其中，p(x,y)是变量X和变量Y的联合概率分布函数，而p(x)是变量X的边缘概率分布函数；p(y)分别是变量Y的边缘概率分布函数，I(X；Y)表示变量X和变量Y的互信息量。互信息用来评价一个事件的出现对于另一个事件的出现所贡献的信息量。简单来说，互信息表示变量X与变量Y是否有关系，以及关系的强弱。采用互信息法可以剔除对辨识结果影响不大的特征，降低特征维度，提升算法精度和效率。

步骤S2中，选取互信息大的特征作为后续机器学习算法训练的训练样本特征，舍去互信息小的特征。换句话说，减少对备用不足风险影响小的特征，提升算法的效率。

互信息法的优势在于可以进行快速的特征筛选。对于原始数据集中对类别影响的潜在特征因素过多的情况，采用互信息法可以快速的评估各个潜在特征因素对分类类别的影响，然后对于对分类类别影响小的潜在特征因素予以剔除。互信息法可以在很短时间内完成对大量潜在特征因素的特征筛选工作。

S3：基于训练样本特征和训练样本集D构建基于CART准则的决策树模型，采用连续型特征数据处理方法对取值为连续值的训练样本特征进行离散处理，根据训练样本集D在各个训练样本特征划分下的基尼指数确定决策树模型的最优划分特征。

电力系统备用不足风险场景辨识问题可以抽象成分类问题，由于存在一组样本特征数据同时对应正备用不足风险标签和负备用不足风险标签，因此原问题可以抽象成多标签分类问题，此类问题可以转化成多个单标签二分类问题来解决。因此本发明将正、负备用不足风险场景辨识问题分为正备用不足风险场景辨识问题和负备用不足风险场景辨识问题。本发明选取的训练样本特征构建基于CART准则的决策树模型，采用基尼指数决定某个训练样本特征作为最优划分特征，然后利用训练样本集进行模型训练分别完成正备用不足风险场景辨识任务和负备用不足风险场景辨识任务。

决策树模型是一种机器学习分类算法，如图3，图中叶节点对应决策结果，每个中间节点对应一个特征划分，其中每个节点包含的样本集合根据特征划分的结果被划分到子节点中。决策树模型利用信息论原理对大量样本的属性进行分析和归纳。影响决策树模型分类效果的一个很重要因素是划分特征的选取，目前常基于信息熵对划分特征进行选择，本发明选择使用基于“基尼指数”对划分特征进行选择。由于基于CART准则的决策树模型只能处理离散型特征数据，本发明采取一种连续型特征处理方法弥补基于CART准则的决策树模型只能处理离散型特征数据的缺点，扩大基于CART准则的决策树模型的适用范围。

步骤S3包括以下步骤：

S3-1：对于取值为离散值的训练样本特征，根据训练样本集D计算在某个训练样本特征a划分下的样本集D^v的基尼值Gini(D^v)。

对于某一训练样本特征a，设训练样本集D在训练样本特征a上的取值集合为v，D^v表示训练样本集D中取值为a^v的样本集，D^v中含有样本类别数为n，样本集D^v的纯度可用基尼值衡量。基尼值Gini(D^v)计算公式如下：

其中，p_k表示样本集D^v中第k类样本所占的比例；公式(4)表述了从样本集D^v中随机抽两个不同样本，其类别不一致的概率。因此，基尼值越小，则表明样本集D^v的纯度越高。

v表示训练样本集D在训练样本特征a上的取值集合；D^v表示训练样本集D中取值为a^v的样本集。

和

分别包含划分点s两边的样本。由于划分点选取在任意特征相邻取值aⁱ和aⁱ⁺¹之间时产生的划分结果完全一致，因此，选取区间[aⁱ,aⁱ⁺¹)的中位点为候选划分点。对于连续的训练样本特征a，包含m-1个元素的候选划分点集合为：

S3-4：根据公式(6)产生的候选划分点集合S_a，可以采用离散属性值的考察方法逐步考察集合S_a内所有的候选划分点，根据公式(7)分别计算m-1个候选划分点的基尼指数：

式中，

表示连续的训练样本特征a基于划分点s划分下的样本集D_S的基尼值。

基于步骤S2得到的训练样本特征和训练样本集D，通过步骤S3-1至S3-6可以计算训练样本集在每个训练样本特征下的基尼指数，然后选取最小基尼指数对应的训练样本特征作为最优划分特征(即图3里根节点)，从而获得训练样本子集(即图3里中间节点)。后续每次对训练样本子集进行划分时仍然通过步骤S3-1至S3-6计算训练样本子集在除已用训练样本特征外其他每个训练样本特征下的基尼指数，选取基尼指数最小对应的训练样本特征属性作为该子集的最优划分特征，以此法逐步进行划分，直到基尼指数或者子集样本数达到阈值而不能继续划分(即图3里叶节点)，则可以获得一颗决策树。

本发明采用的基于CART准则的决策树优势在于可以同时处理离散取值和连续取值的特征，克服了一些分类算法原基于CART准则的决策树只能处理离散变量的缺点，提升了基于CART准则的决策树算法的适用范围。另外，决策树模型生成的决策树简单直观，不同于黑箱模型的神经网络，决策树的分类结果可以在逻辑上寻求解释，便于研究特征与结果之间的逻辑关系。

S4：基于步骤S2构建的训练样本集D和步骤S3构建的基于CART准则的决策树模型，采用交叉验证法选取最优叶节点最小样本数，从而提升基于CART准则的决策树的泛化能力和性能。

叶结点的最小容量表示叶结点内允许含有的最少样本数，这个参数较大影响决策树的泛化能力。比如，若设置叶结点最小容量为1，表示叶结点最少允许只有一个样本，这个确实会大大提升决策树对训练数据的适应，正因为这种适应，会导致决策树对训练数据过于依赖，对新数据的预测精度以及算法的泛化能力会很差。

进一步的，步骤S4分为以下几步：

S4-1：设置初始叶节点最小样本数k＝2；利用步骤S2得到的训练样本集D和步骤S3构建的决策树模型进行训练，采用10次10折交叉验证法计算交叉验证误差并记录误差值。

本发明采用10次10折交叉验证，方法如下：首先，把给定的所有样本随机均分为10组(10折)，每组的样本数目尽可能一致。然后，每次取1组(不重复选取)作为测试样本集，剩下的9组合成训练样本集，对模型进行训练，一共取10次，进行10次训练，取每次的测试误差的平均数作为1次10折交叉验证的误差。最后，一共做10次同上的交叉验证，取10次误差的平均数作为对模型泛化误差的估计。

S4-2：设置新的叶节点最小样本数k：k＝k+1，对决策树模型进行训练，计算交叉验证误差并记录误差值。

S4-3：重复步骤S4-2，直至计算得到的交叉验证误差趋于稳定，对所有记录的不同叶节点最小样本数对应的交叉验证误差进行排序，选择最小的交叉验证误差对应的叶节点最小样本数作为最优叶节点最小样本数。以最优叶节点最小样本数作为决策树模型的参数用于后续进行模型训练和分类预测任务。

本步骤通过设置不同的叶节点最小样本数对模型进行训练，最终可以获得交叉验证误差随叶节点最小样本数变化的曲线，从而选取误差最小的叶节点最小样本数作为模型参数，这对于克服CART决策树模型的过拟合的缺点问题具有重要意义，对于提升决策树模型的精度和性能具有重要的促进作用，即本步骤可以实现以较高精度完成电力系统备用不足风险辨识任务。

S5：利用步骤S2构建的训练样本集对步骤S3构建的基于CART准则的决策树模型进行训练从而生成二分类决策树T_s1，并利用步骤S4获得的最优叶节点最小样本数对决策树模型进行参数设置，经过多次训练生成带纠错机制的决策树序列T_st＝{T_s1,T_s2,…,T_sn}。

步骤S5中，生成带纠错机制决策树序列T_st＝{T_s1,T_s2,…,T_sn}，生成方法如下：

从步骤S2构建的训练样本集D中随机选取70％的样本组成训练集D1，15％的样本组成测试集，15％的样本组成验证集；采用训练集D1对基于CART准则的决策树模型进行训练从而生成二分类决策树T_s1，以此类推，每次随机选取上次训练集的70％的样本组成训练集，15％的样本组成测试集，15％的样本组成验证集，依次生成二分类决策树T_s2,…,T_sn，从而生成带纠错机制的决策树序列T_st＝{T_s1,T_s2,…,T_sn}。纠错机制如下：

表1

如表1，根据样本数据进行多次随机选取训练集、测试集和验证集，从而生成sn个二分类决策树，将sn个二分类决策树组成的决策树序列组合起来得到每个类别的决策树序列结果编码序列{M₀,M₁}，如表1中类别1的编码为[1 0 0 1 1 0 1 0]。当新样本输入该决策树序列，sn个二分类决策树分别给出一个分类结果，将该结果组合起来形成待分类样本编码M_new，然后分别将待分类样本编码与决策树序列生成的分类结果编码进行比较，取欧式距离最小的编码对应的分类为该新样本的最终分类。这种方法具有纠错机制，假设新样本的编码M_new＝[1 0 1 1 0 0 1 0]，计算可得新样本编码与类别1的编码欧式距离为1.41，与类别2的编码欧式距离为2.45，因此新样本可被分类为类别2，如表1，很明显二分类决策树序列中T_s3和T_s5在对新样本进行分类预测时出现了错误，而最终分类结果仍然是正确的，这表明带纠错机制的决策树序列具有很好的容错性。

步骤S5提出一种带纠错机制的决策树模型，通过生成决策树序列，对分类结果进行编码，从而获得最准确的分类结果，这是一种具有很好容错性的方法，可以避免基于CART准则的决策树出现的偶然性结果、偶发性错误或样本数据偏差导致的误差等，可以很好的提升决策树的分类精度，即提升电力系统备用不足风电的辨识精度。

S6：采用迭代式后剪枝法对步骤S5生成的决策树序列T_st进行剪枝，最终生成最优的带纠错编码的决策树序列T_op，减少决策树序列的“过拟合”问题，进一步提升决策树的泛化能力。

剪枝方法如下：

S6-1：对于决策树序列T_st中的决策树T，其叶节点个数为|T|，样本空间所属分类变量(即是否有备用不足风险)为K，t表示决策树T的一个叶节点，该叶节点有n_t个样本点，其中k类的样本点有

个，k∈{1,2,...,K}，则叶节点t上的经验熵为：

公式(8)中H_t(T)表示经验熵，代表叶节点t的分类的混乱程度，即连接该叶节点的整个路径对数据分类的彻底性。

S6-2：考虑到每个叶节点中样本个数不一致，采用公式(9)衡量模型对训练样本集的整体测量误差，公式(9)如下：

其中，T_j表示中间节点j对应的子树(即中间节点j本层以下其连接的所有节点)，|T_j|表示中间节点j对应子树T_j包含的叶节点个数。

S6-4：根据记录得到的决策树T的所有中间节点对应的损失函数减少程度g，选取最小的g对应的中间节点为剪枝节点，对该中间节点进行剪枝去除，得到新的决策树T₁。

S6-5：对新的决策树T₁利用步骤S6-1～S6-4的剪枝处理方法得到新的决策树T₂，以此下去进行递归不断得到新的决策树，直至新决策树不再具有内部节点(即只有根节点)，最终可以得到剪枝后的决策树序列T_list＝{T,T₁,T₂,…,T_N}，然后利用验证集对决策树序列T_list中所有决策树分别进行交叉验证误差估计，选择误差最小的决策树为原决策树T剪枝处理后的最优决策树T_op。

通过上述迭代式后剪枝方法对步骤S5生成的带纠错机制的决策树序列分别进行剪枝处理，最终获得性能更优的带纠错机制的决策树序列T_ops，从而使得决策树序列对新样本的分类预测具有更高的精度。

步骤S6采用的剪枝方法利用了递归式思想，利用递归的方法对原决策树序列进行多轮考察，最终获得性能最优的带纠错机制的决策树序列。该方法避免了仅进行一次剪枝存在的偶然性影响，采用递归式剪枝方法可以最大化的提升决策树的性能，对于准确辨识电力系统备用风险不足场景具有重要意义。

S7：根据最优的带纠错机制的决策树序列T_ops，对带纠错机制的决策树模型进行评估，采用预测精度、查准率、查全率和F1度量对决策树模型进行评估。

对于二分类任务，分类结果可以表述为表2混淆矩阵的形式。表2中，正例表示有备用风险，反例表示无备用风险。TP表示真正例，即真实为正例且被预测为正例的样本数；FP表示假正例，即真实为反例而被预测为正例的样本数；FN表示假反例，即真实为正例而被预测为反例的样本数；TN表示真反例，即真实为反例且被预测为反例的样本数。

表2分类结果混淆矩阵

精度(Acc)：预测正确的样本数占总样本数的比例。

查准率(Pre：预测为正例样本中预测正确(即预测为正例的样本真实也是正例)的比例。

查全率(召回率，Rec)：预测正确的正例样本占样本集中正例样本总数的比例，即样本集中被正确找出来的正例样本的比例。

F1度量：查准率和查全率综合评估的指标。

本步骤通过预测精度、查准率、查全率和F1度量一共四个指标对决策树模型进行性能评估，根据评估结果可以很全面的了解决策树模型的分类预测能力，而且根据不同实际需求重点考察某些单一的指标，对于进一步提升决策树的某项性能或者整体性能具有很好的参考价值，可以保证决策树以较高水平完成电力系统备用不足风险场景辨识任务。

S8：对评估后的决策树模型进行保存，用于进行分类预测任务，即进行电力系统备用不足风险场景辨识。根据电力系统实时采集的火电机组发电功率上限、火电机组发电功率下限、负荷、联络线功率、风电功率不同置信度水平下的概率预测值、光伏功率不同置信度水平下的概率预测值、电力系统正备用容量、电力系统负备用容量，按照图2格式输入待辨识的样本特征数据，利用最优的带纠错机制的决策树序列T_ops对输入样本进行分类预测得到预测结果编码，然后与已生成的分类结果编码进行欧氏距离求解，选择欧氏距离最小的分类结果编码作为最终的分类预测结果，输出该样本是否为正备用不足风险场景或者负备用不足风险场景。

本发明针对由风电波动随机性带来的电力系统备用不足风险提出了一种电力系统备用不足风险场景辨识方法，该方法可以快速便捷的进行在线备用不足风险场景辨识。本发明采用的带纠错机制的决策树方法可以同时处理连续性特征和离散性特征，具有较好的适用范围；另外，为优化决策树，本发明利用交叉验证法选取了最优叶节点最小样本数，然后生成带纠错机制的决策树序列，最后采用了迭代式后剪枝方法获取最优决策树序列，以保证决策树模型具有较好的性能，保证了所提出方法能高效地完成电力系统备用不足风险场景辨识任务。

本领域的技术人员可以对本发明进行各种修改和变型，倘若这些修改和变型在本发明权利要求及其等同技术的范围之内，则这些修改和变型也在本发明的保护范围之内。

说明书中未详细描述的内容为本领域技术人员公知的现有技术。