CN113452018A - 一种电力系统备用不足风险场景辨识方法 - Google Patents
一种电力系统备用不足风险场景辨识方法 Download PDFInfo
- Publication number
- CN113452018A CN113452018A CN202110725764.7A CN202110725764A CN113452018A CN 113452018 A CN113452018 A CN 113452018A CN 202110725764 A CN202110725764 A CN 202110725764A CN 113452018 A CN113452018 A CN 113452018A
- Authority
- CN
- China
- Prior art keywords
- decision tree
- sample
- training sample
- training
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 97
- 238000003066 decision tree Methods 0.000 claims abstract description 201
- 238000012549 training Methods 0.000 claims abstract description 181
- 238000012937 correction Methods 0.000 claims abstract description 37
- 238000013138 pruning Methods 0.000 claims abstract description 34
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000012795 verification Methods 0.000 claims abstract description 10
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000002790 cross-validation Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000007812 deficiency Effects 0.000 claims description 20
- 238000005192 partition Methods 0.000 claims description 14
- 238000003672 processing method Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000005315 distribution function Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 5
- 238000010248 power generation Methods 0.000 claims description 5
- 108091026890 Coding region Proteins 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/381—Dispersed generators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/06—Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2113/00—Details relating to the application field
- G06F2113/04—Power grid distribution networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/10—Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/28—The renewable source being wind energy
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E10/00—Energy generation through renewable energy sources
- Y02E10/70—Wind energy
- Y02E10/76—Power conversion electric or electronic aspects
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Power Engineering (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Educational Administration (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Water Supply & Treatment (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
一种电力系统备用不足风险场景辨识方法,包括以下步骤:S1:选取影响正负备用的样本特征,构建初始样本集;S2:筛选互信息较大的样本特征作为训练样本特征,构建训练样本集;S3:构建决策树模型,根据训练样本集在各个训练样本特征划分下的基尼指数确定决策树模型的最优划分特征;S4:采用交叉验证法选取最优叶节点最小样本数;S5:生成带纠错机制的决策树序列;S6:对决策树序列进行剪枝,生成最优的带纠错编码的决策树序列;S7:对带纠错机制的决策树模型进行评估;S8:利用评估后的决策树模型进行电力系统备用不足风险场景辨识。本发明能实现对电力系统可能出现的正、负备用不足风险进行预判,从而保证电力系统的安全。
Description
技术领域
本发明涉及电力系统安全技术领域,具体是涉及一种电力系统备用不足风险场景辨识方法。
背景技术
近年来,各国风力发电量占电力系统总发电量的比例逐渐升高。然而,风电功率具有波动性和不确定性,这给电力系统的运行带来了极大的安全风险,比如功率不平衡、线路过载、正负备用不足等问题。在系统实时运行中,常规机组组合和调度计划已经提前确定,但由于风电出力的波动性和预测准确性有限,对于含有大规模风电接入的电力系统,经常因为风电出力的极端情况导致系统出现风险。例如,若实际风电出力远小于预测出力,即使开机的常规机组均达到最大出力也无法满足负荷需求,就会出现供电不足风险;若实际风电出力远大于预测出力,即使开机的常规机组均压到最小出力也无法满足风/光全额消纳,造成限电情况,出现负备用不足风险。
然而,针对电力系统备用不足风险,目前常通过用随机模拟方法模拟大量场景,然后用复杂且费时的计算方法来确定是否存在备用不足风险,整个过程非常费时,效率比较低,难以满足实时性的需求,因此亟需提出一种高效的满足实时性的在线风险场景辨识方法以保证电力系统的安全。
发明内容
本发明所要解决的技术问题是,克服上述背景技术的不足,提供一种电力系统备用不足风险场景辨识方法,能快速有效的辨识由于风电波动极端情况导致的电力系统备用不足风险,实现对电力系统可能出现的正、负备用不足风险进行预判,从而保证电力系统的安全。
本发明解决其技术问题采用的技术方案是,一种电力系统备用不足风险场景辨识方法,包括以下步骤:
S1:根据历史数据构建样本集合,选取影响正负备用的样本特征,得到候选的样本特征集合;设置样本集合中各样本的正、负备用不足风险类别标记,根据候选的样本特征集合和风险类别标记构建初始样本集;
S2:根据初始样本集,利用互信息法分别计算各个样本的样本特征X和风险类别标记Y之间的互信息,筛选互信息较大的样本特征作为训练样本特征,构建训练样本集D;
S3:基于训练样本特征和训练样本集D构建基于CART准则的决策树模型,采用连续型特征数据处理方法对取值为连续值的训练样本特征进行离散处理,根据训练样本集D在各个训练样本特征划分下的基尼指数确定决策树模型的最优划分特征;
S4:基于步骤S2构建的训练样本集D和步骤S3构建的基于CART准则的决策树模型,采用交叉验证法选取最优叶节点最小样本数;
S5:利用步骤S2构建的训练样本集D对步骤S3构建的基于CART准则的决策树模型进行训练从而生成二分类决策树Ts1,并利用步骤S4获得的最优叶节点最小样本数对决策树模型进行参数设置,经过多次训练生成带纠错机制的决策树序列Tst={Ts1,Ts2,…,Tsn};
S6:采用迭代式后剪枝法对步骤S5生成的决策树序列Tst进行剪枝,最终生成最优的带纠错编码的决策树序列Top;
S7:根据最优的带纠错机制的决策树序列Tops,对带纠错机制的决策树模型进行评估,采用预测精度、查准率、查全率和F1度量对决策树模型进行评估;
S8:利用评估后的决策树模型进行电力系统备用不足风险场景辨识。
进一步,所述步骤S1中,根据正负备用不足的功率计算公式选取影响正负备用的样本特征,方法如下:
正备用不足的功率计算公式:
负备用不足的功率计算公式:
公式(1)和(2)中,表示火电机组发电功率上限,表示火电机组发电功率下限,PDt为负荷,Pl,t为联络线功率,为新能源功率概率预测值,为电力系统正备用容量,电力系统负备用容量,是计算出的正备用不足功率值,是计算出的负备用不足功率值;新能源功率概率预测值包括风电功率概率预测值和光伏功率概率预测值;
选取火电机组发电功率上限、火电机组发电功率下限、负荷、联络线功率、风电功率不同置信度水平下的概率预测值、光伏功率不同置信度水平下的概率预测值、电力系统正备用容量、电力系统负备用容量为样本特征。
进一步,所述步骤S1中,设置样本集合中各样本的正、负备用不足风险类别标记的方法如下:
当样本正备用不足功率值大于0时,则该样本正备用不足风险类别标记为1,否则为0;当样本负备用不足功率值大于0时,则该样本负备用不足风险类别标记为1,否则为0。
进一步,所述步骤S2中,样本特征X和风险类别标记Y之间的互信息量计算公式如下:
其中,p(x,y)是变量X和变量Y的联合概率分布函数,而p(x)是变量X的边缘概率分布函数;p(y)分别是变量Y的边缘概率分布函数,I(X;Y)表示变量X和变量Y的互信息量;互信息用来评价一个事件的出现对于另一个事件的出现所贡献的信息量。
进一步,所述步骤S3,包括以下步骤:
S3-1:对于取值为离散值的训练样本特征,根据训练样本集D计算在某个训练样本特征a划分下的样本集Dv的基尼值Gini(Dv);
对于某一训练样本特征a,设训练样本集D在训练样本特征a上的取值集合为v,Dv表示训练样本集D中取值为av的样本集,Dv中含有样本类别数为n,样本集Dv的纯度可用基尼值衡量;基尼值Gini(Dv)计算公式如下:
其中,pk表示样本集Dv中第k类样本所占的比例;
S3-2:根据基尼值Gini(Dv)计算训练样本集D在训练样本特征a划分下的基尼指数Gini_index(D,a),计算公式如下:
v表示训练样本集D在训练样本特征a上的取值集合;Dv表示训练样本集D中取值为av的样本集;
S3-3:对于取值为连续值的训练样本特征,采用一种连续型特征数据处理方法对连续值的训练样本特征进行处理,处理方法如下:
对于训练样本集D和连续的训练样本特征a,设定训练样本特征a在训练样本集D上有m个不同取值,对取值进行升序排列,为{a1,a2,…,am},基于某个划分点s将训练样本集D划分为两个子集和分别包含划分点s两边的样本;对于连续的训练样本特征a,包含m-1个元素的候选划分点集合为:
S3-4:根据公式(6)产生的候选划分点集合Sa,根据公式(7)分别计算m-1个候选划分点的基尼指数:
S3-5:选取基尼指数最小的候选划分点为最优划分点,最优划分点对应的基尼指数为连续的训练样本特征a的基尼指数;
S3-6:按步骤S3-1~S3-2的方法计算所有取值为离散值的训练样本特征的基尼指数,按步骤S3-3~S3-5的方法计算所有取值为连续值的训练样本特征的基尼指数,并选取每个取值为连续值的训练样本特征的最优划分点;
S3-7:将所有取值为离散值的训练样本特征的基尼指数及所有最优划分点下的基尼指数进行排序,取基尼指数最小的训练样本特征作为最优划分特征。
进一步,所述步骤S4,包括以下步骤:
S4-1:设置初始叶节点最小样本数k=2;利用步骤S2得到的训练样本集D和步骤S3构建的决策树模型进行训练,采用n次n折交叉验证法计算交叉验证误差并记录误差值;
S4-2:设置新的叶节点最小样本数k:k=k+1,对决策树模型进行训练,计算交叉验证误差并记录误差值;
S4-3:重复步骤S4-2,直至计算得到的交叉验证误差趋于稳定,对所有记录的不同叶节点最小样本数对应的交叉验证误差进行排序,选择最小的交叉验证误差对应的叶节点最小样本数作为最优叶节点最小样本数。
进一步,所述步骤S5中,生成带纠错机制决策树序列Tst={Ts1,Ts2,…,Tsn},生成方法如下:
从步骤S2构建的训练样本集D中随机选取70%的样本组成训练集D1,15%的样本组成测试集,15%的样本组成验证集;采用训练集D1对基于CART准则的决策树模型进行训练从而生成二分类决策树Ts1,以此类推,每次随机选取上次训练集的70%的样本组成训练集,15%的样本组成测试集,15%的样本组成验证集,依次生成二分类决策树Ts2,…,Tsn,从而生成带纠错机制的决策树序列Tst={Ts1,Ts2,…,Tsn}。
进一步,所述步骤S5中,生成二分类决策树的方法如下:
根据样本数据进行多次随机选取训练集、测试集和验证集,从而生成sn个二分类决策树,将sn个二分类决策树组成的决策树序列组合起来得到每个类别的决策树序列结果编码序列{M0,M1},当新样本输入该决策树序列,sn个二分类决策树分别给出一个分类结果,将该结果组合起来形成待分类样本编码Mnew,然后分别将待分类样本编码与决策树序列生成的分类结果编码进行比较,取欧式距离最小的编码对应的分类为该新样本的最终分类。
进一步,所述步骤S6中,剪枝方法如下:
S6-1:对于决策树序列Tst中的决策树T,其叶节点个数为|T|,样本空间所属分类变量为K,t表示决策树T的一个叶节点,该叶节点有nt个样本点,其中k类的样本点有个,k∈{1,2,...,K},则叶节点t上的经验熵为:
公式(8)中Ht(T)表示经验熵,代表叶节点t的分类的混乱程度,即连接该叶节点的整个路径对数据分类的彻底性;
S6-2:采用公式(9)衡量模型对训练样本集的整体测量误差,公式(9)如下:
S6-3:对利用训练集训练生成的决策树模型,自下而上遍历每个中间节点,对于中间节点j,计算其被剪枝后整体树的损失函数减少程度g(j)并记录,公式如下:
其中,Tj表示中间节点j对应的子树,|Tj|表示中间节点j对应子树Tj包含的叶节点个数;
S6-4:根据记录得到的决策树T的所有中间节点对应的损失函数减少程度g,选取最小的g对应的中间节点为剪枝节点,对该中间节点进行剪枝去除,得到新的决策树T1;
S6-5:对新的决策树T1利用步骤S6-1~S6-4的剪枝处理方法得到新的决策树T2,以此下去进行递归不断得到新的决策树,直至新决策树不再具有内部节点,最终得到剪枝后的决策树序列Tlist={T,T1,T2,…,TN};然后利用验证集对决策树序列Tlist中所有决策树分别进行交叉验证误差估计,选择误差最小的决策树为原决策树T剪枝处理后的最优决策树Top;
S6-6:利用步骤S6-1~S6-5的方法依次对决策树序列Tst中的各个决策树进行剪枝,从而得到最优的带纠错机制的决策树序列Tops。
进一步,利用评估后的决策树模型进行电力系统备用不足风险场景辨识的方法如下:
根据电力系统实时采集的火电机组发电功率上限、火电机组发电功率下限、负荷、联络线功率、风电功率不同置信度水平下的概率预测值、光伏功率不同置信度水平下的概率预测值、电力系统正备用容量、电力系统负备用容量,输入待辨识的样本特征数据,利用最优的带纠错机制的决策树序列Tops对输入样本进行分类预测得到预测结果编码,然后与已生成的分类结果编码进行欧氏距离求解,选择欧氏距离最小的分类结果编码作为最终的分类预测结果,输出该样本是否为正备用不足风险场景或者负备用不足风险场景。
与现有技术相比,本发明的优点如下:
(1)本发明针对风电功率波动的极端情况带来的电力系统备用不足问题,提出了一种电力系统备用不足风险场景辨识方法,避免了现存辨识方法计算复杂繁琐的缺点,相比于现存的备用不足风险场景辨识方法更加高效便捷。
(2)本发明采用的决策树模型可以同时处理连续性特征和离散性特征,克服基于CART准则的决策树只能处理离散型数据的缺点;另外,本发明利用交叉验证选取了最优的叶节点最小容量,以及采用的迭代式后剪枝方法可以最大程度的提升决策树的性能,对于提升电力系统备用不足风险场景辨识精度具有重要意义。
(3)本发明提出了一种带纠错编码的决策树模型,该模型具有一定的容错性,可以克服决策树出现的偶然性结果、偶发性错误以及样本偏差带来的结果误差等,对于提升决策树模型的性能具有重要意义,有助于提升电力系统备用不足风险场景辨识的精度。
附图说明
图1是本发明实施例的方法流程图。
图2是本发明实施例涉及的训练样本集构造示意图。
图3是本发明实施例涉及的决策树树状图示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细描述。
参照图1,本实施例电力系统备用不足风险场景辨识方法包括以下步骤:
S1:根据历史数据构建样本集合,选取影响正负备用的样本特征,得到候选的样本特征集合;设置样本集合中各样本的正、负备用不足风险类别标记,根据候选的样本特征集合和风险类别标记构建初始样本集。
步骤S1中,根据正负备用不足的功率计算公式选取影响正负备用的样本特征,方法如下:
正备用不足的功率计算公式:
负备用不足的功率计算公式:
公式(1)和(2)中,表示火电机组发电功率上限,表示火电机组发电功率下限,PDt为负荷,Pl,t为联络线功率,为新能源功率概率预测值,为电力系统正备用容量,电力系统负备用容量,是计算出的正备用不足功率值,是计算出的负备用不足功率值。本发明中,新能源功率概率预测值包括风电功率概率预测值和光伏功率概率预测值。
选取火电机组发电功率上限、火电机组发电功率下限、负荷、联络线功率、风电功率不同置信度水平下的概率预测值、光伏功率不同置信度水平下的概率预测值、电力系统正备用容量、电力系统负备用容量为样本特征。
设置样本集合中各样本的正、负备用不足风险类别标记的方法如下:
当样本正备用不足功率值大于0时,则该样本正备用不足风险类别标记为1,否则为0;当样本负备用不足功率值大于0时,则该样本负备用不足风险类别标记为1,否则为0。
S2:根据初始样本集,利用互信息法分别计算各个样本的样本特征X和风险类别标记Y之间的互信息,筛选互信息较大的样本特征作为训练样本特征,构建训练样本集D。筛选互信息较大的样本特征的标准为:将互信息大小降序排列,选择互信息排列前14个的样本特征作为训练样本特征。
样本特征X和风险类别标记Y之间的互信息量计算公式如下:
其中,p(x,y)是变量X和变量Y的联合概率分布函数,而p(x)是变量X的边缘概率分布函数;p(y)分别是变量Y的边缘概率分布函数,I(X;Y)表示变量X和变量Y的互信息量。互信息用来评价一个事件的出现对于另一个事件的出现所贡献的信息量。简单来说,互信息表示变量X与变量Y是否有关系,以及关系的强弱。采用互信息法可以剔除对辨识结果影响不大的特征,降低特征维度,提升算法精度和效率。
步骤S2中,选取互信息大的特征作为后续机器学习算法训练的训练样本特征,舍去互信息小的特征。换句话说,减少对备用不足风险影响小的特征,提升算法的效率。
互信息法的优势在于可以进行快速的特征筛选。对于原始数据集中对类别影响的潜在特征因素过多的情况,采用互信息法可以快速的评估各个潜在特征因素对分类类别的影响,然后对于对分类类别影响小的潜在特征因素予以剔除。互信息法可以在很短时间内完成对大量潜在特征因素的特征筛选工作。
S3:基于训练样本特征和训练样本集D构建基于CART准则的决策树模型,采用连续型特征数据处理方法对取值为连续值的训练样本特征进行离散处理,根据训练样本集D在各个训练样本特征划分下的基尼指数确定决策树模型的最优划分特征。
电力系统备用不足风险场景辨识问题可以抽象成分类问题,由于存在一组样本特征数据同时对应正备用不足风险标签和负备用不足风险标签,因此原问题可以抽象成多标签分类问题,此类问题可以转化成多个单标签二分类问题来解决。因此本发明将正、负备用不足风险场景辨识问题分为正备用不足风险场景辨识问题和负备用不足风险场景辨识问题。本发明选取的训练样本特征构建基于CART准则的决策树模型,采用基尼指数决定某个训练样本特征作为最优划分特征,然后利用训练样本集进行模型训练分别完成正备用不足风险场景辨识任务和负备用不足风险场景辨识任务。
决策树模型是一种机器学习分类算法,如图3,图中叶节点对应决策结果,每个中间节点对应一个特征划分,其中每个节点包含的样本集合根据特征划分的结果被划分到子节点中。决策树模型利用信息论原理对大量样本的属性进行分析和归纳。影响决策树模型分类效果的一个很重要因素是划分特征的选取,目前常基于信息熵对划分特征进行选择,本发明选择使用基于“基尼指数”对划分特征进行选择。由于基于CART准则的决策树模型只能处理离散型特征数据,本发明采取一种连续型特征处理方法弥补基于CART准则的决策树模型只能处理离散型特征数据的缺点,扩大基于CART准则的决策树模型的适用范围。
步骤S3包括以下步骤:
S3-1:对于取值为离散值的训练样本特征,根据训练样本集D计算在某个训练样本特征a划分下的样本集Dv的基尼值Gini(Dv)。
对于某一训练样本特征a,设训练样本集D在训练样本特征a上的取值集合为v,Dv表示训练样本集D中取值为av的样本集,Dv中含有样本类别数为n,样本集Dv的纯度可用基尼值衡量。基尼值Gini(Dv)计算公式如下:
其中,pk表示样本集Dv中第k类样本所占的比例;公式(4)表述了从样本集Dv中随机抽两个不同样本,其类别不一致的概率。因此,基尼值越小,则表明样本集Dv的纯度越高。
S3-2:根据基尼值Gini(Dv)计算训练样本集D在训练样本特征a划分下的基尼指数Gini_index(D,a),计算公式如下:
v表示训练样本集D在训练样本特征a上的取值集合;Dv表示训练样本集D中取值为av的样本集。
S3-3:对于取值为连续值的训练样本特征,采用一种连续型特征数据处理方法对连续值的训练样本特征进行处理,处理方法如下:
对于训练样本集D和连续的训练样本特征a,设定训练样本特征a在训练样本集D上有m个不同取值,对取值进行升序排列,为{a1,a2,…,am},基于某个划分点s将训练样本集D划分为两个子集和分别包含划分点s两边的样本。由于划分点选取在任意特征相邻取值ai和ai+1之间时产生的划分结果完全一致,因此,选取区间[ai,ai+1)的中位点为候选划分点。对于连续的训练样本特征a,包含m-1个元素的候选划分点集合为:
S3-4:根据公式(6)产生的候选划分点集合Sa,可以采用离散属性值的考察方法逐步考察集合Sa内所有的候选划分点,根据公式(7)分别计算m-1个候选划分点的基尼指数:
S3-5:选取基尼指数最小的候选划分点为最优划分点,最优划分点对应的基尼指数为连续的训练样本特征a的基尼指数;
S3-6:按步骤S3-1~S3-2的方法计算所有取值为离散值的训练样本特征的基尼指数,按步骤S3-3~S3-5的方法计算所有取值为连续值的训练样本特征的基尼指数,并选取每个取值为连续值的训练样本特征的最优划分点;
S3-7:将所有取值为离散值的训练样本特征的基尼指数及所有最优划分点下的基尼指数进行排序,取基尼指数最小的训练样本特征作为最优划分特征。
基于步骤S2得到的训练样本特征和训练样本集D,通过步骤S3-1至S3-6可以计算训练样本集在每个训练样本特征下的基尼指数,然后选取最小基尼指数对应的训练样本特征作为最优划分特征(即图3里根节点),从而获得训练样本子集(即图3里中间节点)。后续每次对训练样本子集进行划分时仍然通过步骤S3-1至S3-6计算训练样本子集在除已用训练样本特征外其他每个训练样本特征下的基尼指数,选取基尼指数最小对应的训练样本特征属性作为该子集的最优划分特征,以此法逐步进行划分,直到基尼指数或者子集样本数达到阈值而不能继续划分(即图3里叶节点),则可以获得一颗决策树。
本发明采用的基于CART准则的决策树优势在于可以同时处理离散取值和连续取值的特征,克服了一些分类算法原基于CART准则的决策树只能处理离散变量的缺点,提升了基于CART准则的决策树算法的适用范围。另外,决策树模型生成的决策树简单直观,不同于黑箱模型的神经网络,决策树的分类结果可以在逻辑上寻求解释,便于研究特征与结果之间的逻辑关系。
S4:基于步骤S2构建的训练样本集D和步骤S3构建的基于CART准则的决策树模型,采用交叉验证法选取最优叶节点最小样本数,从而提升基于CART准则的决策树的泛化能力和性能。
叶结点的最小容量表示叶结点内允许含有的最少样本数,这个参数较大影响决策树的泛化能力。比如,若设置叶结点最小容量为1,表示叶结点最少允许只有一个样本,这个确实会大大提升决策树对训练数据的适应,正因为这种适应,会导致决策树对训练数据过于依赖,对新数据的预测精度以及算法的泛化能力会很差。
进一步的,步骤S4分为以下几步:
S4-1:设置初始叶节点最小样本数k=2;利用步骤S2得到的训练样本集D和步骤S3构建的决策树模型进行训练,采用10次10折交叉验证法计算交叉验证误差并记录误差值。
本发明采用10次10折交叉验证,方法如下:首先,把给定的所有样本随机均分为10组(10折),每组的样本数目尽可能一致。然后,每次取1组(不重复选取)作为测试样本集,剩下的9组合成训练样本集,对模型进行训练,一共取10次,进行10次训练,取每次的测试误差的平均数作为1次10折交叉验证的误差。最后,一共做10次同上的交叉验证,取10次误差的平均数作为对模型泛化误差的估计。
S4-2:设置新的叶节点最小样本数k:k=k+1,对决策树模型进行训练,计算交叉验证误差并记录误差值。
S4-3:重复步骤S4-2,直至计算得到的交叉验证误差趋于稳定,对所有记录的不同叶节点最小样本数对应的交叉验证误差进行排序,选择最小的交叉验证误差对应的叶节点最小样本数作为最优叶节点最小样本数。以最优叶节点最小样本数作为决策树模型的参数用于后续进行模型训练和分类预测任务。
本步骤通过设置不同的叶节点最小样本数对模型进行训练,最终可以获得交叉验证误差随叶节点最小样本数变化的曲线,从而选取误差最小的叶节点最小样本数作为模型参数,这对于克服CART决策树模型的过拟合的缺点问题具有重要意义,对于提升决策树模型的精度和性能具有重要的促进作用,即本步骤可以实现以较高精度完成电力系统备用不足风险辨识任务。
S5:利用步骤S2构建的训练样本集对步骤S3构建的基于CART准则的决策树模型进行训练从而生成二分类决策树Ts1,并利用步骤S4获得的最优叶节点最小样本数对决策树模型进行参数设置,经过多次训练生成带纠错机制的决策树序列Tst={Ts1,Ts2,…,Tsn}。
步骤S5中,生成带纠错机制决策树序列Tst={Ts1,Ts2,…,Tsn},生成方法如下:
从步骤S2构建的训练样本集D中随机选取70%的样本组成训练集D1,15%的样本组成测试集,15%的样本组成验证集;采用训练集D1对基于CART准则的决策树模型进行训练从而生成二分类决策树Ts1,以此类推,每次随机选取上次训练集的70%的样本组成训练集,15%的样本组成测试集,15%的样本组成验证集,依次生成二分类决策树Ts2,…,Tsn,从而生成带纠错机制的决策树序列Tst={Ts1,Ts2,…,Tsn}。纠错机制如下:
表1
如表1,根据样本数据进行多次随机选取训练集、测试集和验证集,从而生成sn个二分类决策树,将sn个二分类决策树组成的决策树序列组合起来得到每个类别的决策树序列结果编码序列{M0,M1},如表1中类别1的编码为[1 0 0 1 1 0 1 0]。当新样本输入该决策树序列,sn个二分类决策树分别给出一个分类结果,将该结果组合起来形成待分类样本编码Mnew,然后分别将待分类样本编码与决策树序列生成的分类结果编码进行比较,取欧式距离最小的编码对应的分类为该新样本的最终分类。这种方法具有纠错机制,假设新样本的编码Mnew=[1 0 1 1 0 0 1 0],计算可得新样本编码与类别1的编码欧式距离为1.41,与类别2的编码欧式距离为2.45,因此新样本可被分类为类别2,如表1,很明显二分类决策树序列中Ts3和Ts5在对新样本进行分类预测时出现了错误,而最终分类结果仍然是正确的,这表明带纠错机制的决策树序列具有很好的容错性。
步骤S5提出一种带纠错机制的决策树模型,通过生成决策树序列,对分类结果进行编码,从而获得最准确的分类结果,这是一种具有很好容错性的方法,可以避免基于CART准则的决策树出现的偶然性结果、偶发性错误或样本数据偏差导致的误差等,可以很好的提升决策树的分类精度,即提升电力系统备用不足风电的辨识精度。
S6:采用迭代式后剪枝法对步骤S5生成的决策树序列Tst进行剪枝,最终生成最优的带纠错编码的决策树序列Top,减少决策树序列的“过拟合”问题,进一步提升决策树的泛化能力。
剪枝方法如下:
S6-1:对于决策树序列Tst中的决策树T,其叶节点个数为|T|,样本空间所属分类变量(即是否有备用不足风险)为K,t表示决策树T的一个叶节点,该叶节点有nt个样本点,其中k类的样本点有个,k∈{1,2,...,K},则叶节点t上的经验熵为:
公式(8)中Ht(T)表示经验熵,代表叶节点t的分类的混乱程度,即连接该叶节点的整个路径对数据分类的彻底性。
S6-2:考虑到每个叶节点中样本个数不一致,采用公式(9)衡量模型对训练样本集的整体测量误差,公式(9)如下:
S6-3:对利用训练集训练生成的决策树模型,自下而上遍历每个中间节点,对于中间节点j,计算其被剪枝后整体树的损失函数减少程度g(j)并记录,公式如下:
其中,Tj表示中间节点j对应的子树(即中间节点j本层以下其连接的所有节点),|Tj|表示中间节点j对应子树Tj包含的叶节点个数。
S6-4:根据记录得到的决策树T的所有中间节点对应的损失函数减少程度g,选取最小的g对应的中间节点为剪枝节点,对该中间节点进行剪枝去除,得到新的决策树T1。
S6-5:对新的决策树T1利用步骤S6-1~S6-4的剪枝处理方法得到新的决策树T2,以此下去进行递归不断得到新的决策树,直至新决策树不再具有内部节点(即只有根节点),最终可以得到剪枝后的决策树序列Tlist={T,T1,T2,…,TN},然后利用验证集对决策树序列Tlist中所有决策树分别进行交叉验证误差估计,选择误差最小的决策树为原决策树T剪枝处理后的最优决策树Top。
S6-6:利用步骤S6-1~S6-5的方法依次对决策树序列Tst中的各个决策树进行剪枝,从而得到最优的带纠错机制的决策树序列Tops。
通过上述迭代式后剪枝方法对步骤S5生成的带纠错机制的决策树序列分别进行剪枝处理,最终获得性能更优的带纠错机制的决策树序列Tops,从而使得决策树序列对新样本的分类预测具有更高的精度。
步骤S6采用的剪枝方法利用了递归式思想,利用递归的方法对原决策树序列进行多轮考察,最终获得性能最优的带纠错机制的决策树序列。该方法避免了仅进行一次剪枝存在的偶然性影响,采用递归式剪枝方法可以最大化的提升决策树的性能,对于准确辨识电力系统备用风险不足场景具有重要意义。
S7:根据最优的带纠错机制的决策树序列Tops,对带纠错机制的决策树模型进行评估,采用预测精度、查准率、查全率和F1度量对决策树模型进行评估。
对于二分类任务,分类结果可以表述为表2混淆矩阵的形式。表2中,正例表示有备用风险,反例表示无备用风险。TP表示真正例,即真实为正例且被预测为正例的样本数;FP表示假正例,即真实为反例而被预测为正例的样本数;FN表示假反例,即真实为正例而被预测为反例的样本数;TN表示真反例,即真实为反例且被预测为反例的样本数。
表2分类结果混淆矩阵
精度(Acc):预测正确的样本数占总样本数的比例。
查准率(Pre:预测为正例样本中预测正确(即预测为正例的样本真实也是正例)的比例。
查全率(召回率,Rec):预测正确的正例样本占样本集中正例样本总数的比例,即样本集中被正确找出来的正例样本的比例。
F1度量:查准率和查全率综合评估的指标。
本步骤通过预测精度、查准率、查全率和F1度量一共四个指标对决策树模型进行性能评估,根据评估结果可以很全面的了解决策树模型的分类预测能力,而且根据不同实际需求重点考察某些单一的指标,对于进一步提升决策树的某项性能或者整体性能具有很好的参考价值,可以保证决策树以较高水平完成电力系统备用不足风险场景辨识任务。
S8:对评估后的决策树模型进行保存,用于进行分类预测任务,即进行电力系统备用不足风险场景辨识。根据电力系统实时采集的火电机组发电功率上限、火电机组发电功率下限、负荷、联络线功率、风电功率不同置信度水平下的概率预测值、光伏功率不同置信度水平下的概率预测值、电力系统正备用容量、电力系统负备用容量,按照图2格式输入待辨识的样本特征数据,利用最优的带纠错机制的决策树序列Tops对输入样本进行分类预测得到预测结果编码,然后与已生成的分类结果编码进行欧氏距离求解,选择欧氏距离最小的分类结果编码作为最终的分类预测结果,输出该样本是否为正备用不足风险场景或者负备用不足风险场景。
本发明针对由风电波动随机性带来的电力系统备用不足风险提出了一种电力系统备用不足风险场景辨识方法,该方法可以快速便捷的进行在线备用不足风险场景辨识。本发明采用的带纠错机制的决策树方法可以同时处理连续性特征和离散性特征,具有较好的适用范围;另外,为优化决策树,本发明利用交叉验证法选取了最优叶节点最小样本数,然后生成带纠错机制的决策树序列,最后采用了迭代式后剪枝方法获取最优决策树序列,以保证决策树模型具有较好的性能,保证了所提出方法能高效地完成电力系统备用不足风险场景辨识任务。
本领域的技术人员可以对本发明进行各种修改和变型,倘若这些修改和变型在本发明权利要求及其等同技术的范围之内,则这些修改和变型也在本发明的保护范围之内。
说明书中未详细描述的内容为本领域技术人员公知的现有技术。
Claims (10)
1.一种电力系统备用不足风险场景辨识方法,其特征在于,包括以下步骤:
S1:根据历史数据构建样本集合,选取影响正负备用的样本特征,得到候选的样本特征集合;设置样本集合中各样本的正、负备用不足风险类别标记,根据候选的样本特征集合和风险类别标记构建初始样本集;
S2:根据初始样本集,利用互信息法分别计算各个样本的样本特征X和风险类别标记Y之间的互信息,筛选互信息较大的样本特征作为训练样本特征,构建训练样本集D;
S3:基于训练样本特征和训练样本集D构建基于CART准则的决策树模型,采用连续型特征数据处理方法对取值为连续值的训练样本特征进行离散处理,根据训练样本集D在各个训练样本特征划分下的基尼指数确定决策树模型的最优划分特征;
S4:基于步骤S2构建的训练样本集D和步骤S3构建的基于CART准则的决策树模型,采用交叉验证法选取最优叶节点最小样本数;
S5:利用步骤S2构建的训练样本集D对步骤S3构建的基于CART准则的决策树模型进行训练从而生成二分类决策树Ts1,并利用步骤S4获得的最优叶节点最小样本数对决策树模型进行参数设置,经过多次训练生成带纠错机制的决策树序列Tst={Ts1,Ts2,…,Tsn};
S6:采用迭代式后剪枝法对步骤S5生成的决策树序列Tst进行剪枝,最终生成最优的带纠错编码的决策树序列Top;
S7:根据最优的带纠错机制的决策树序列Tops,对带纠错机制的决策树模型进行评估,采用预测精度、查准率、查全率和F1度量对决策树模型进行评估;
S8:利用评估后的决策树模型进行电力系统备用不足风险场景辨识。
2.如权利要求1所述的电力系统备用不足风险场景辨识方法,其特征在于:所述步骤S1中,根据正负备用不足的功率计算公式选取影响正负备用的样本特征,方法如下:
正备用不足的功率计算公式:
负备用不足的功率计算公式:
公式(1)和(2)中,表示火电机组发电功率上限,表示火电机组发电功率下限,PDt为负荷,Pl,t为联络线功率,为新能源功率概率预测值,为电力系统正备用容量,电力系统负备用容量,是计算出的正备用不足功率值,是计算出的负备用不足功率值;新能源功率概率预测值包括风电功率概率预测值和光伏功率概率预测值;
选取火电机组发电功率上限、火电机组发电功率下限、负荷、联络线功率、风电功率不同置信度水平下的概率预测值、光伏功率不同置信度水平下的概率预测值、电力系统正备用容量、电力系统负备用容量为样本特征。
3.如权利要求1或2所述的电力系统备用不足风险场景辨识方法,其特征在于:所述步骤S1中,设置样本集合中各样本的正、负备用不足风险类别标记的方法如下:
当样本正备用不足功率值大于0时,则该样本正备用不足风险类别标记为1,否则为0;当样本负备用不足功率值大于0时,则该样本负备用不足风险类别标记为1,否则为0。
5.如权利要求1或2所述的电力系统备用不足风险场景辨识方法,其特征在于:所述步骤S3,包括以下步骤:
S3-1:对于取值为离散值的训练样本特征,根据训练样本集D计算在某个训练样本特征a划分下的样本集Dv的基尼值Gini(Dv);
对于某一训练样本特征a,设训练样本集D在训练样本特征a上的取值集合为v,Dv表示训练样本集D中取值为av的样本集,Dv中含有样本类别数为n;基尼值Gini(Dv)计算公式如下:
其中,pk表示样本集Dv中第k类样本所占的比例;
S3-2:根据基尼值Gini(Dv)计算训练样本集D在训练样本特征a划分下的基尼指数Gini_index(D,a),计算公式如下:
v表示训练样本集D在训练样本特征a上的取值集合;Dv表示训练样本集D中取值为av的样本集;
S3-3:对于取值为连续值的训练样本特征,采用一种连续型特征数据处理方法对连续值的训练样本特征进行处理,处理方法如下:
对于训练样本集D和连续的训练样本特征a,设定训练样本特征a在训练样本集D上有m个不同取值,对取值进行升序排列,为{a1,a2,…,am},基于某个划分点s将训练样本集D划分为两个子集和分别包含划分点s两边的样本;对于连续的训练样本特征a,包含m-1个元素的候选划分点集合为:
S3-4:根据公式(6)产生的候选划分点集合Sa,根据公式(7)分别计算m-1个候选划分点的基尼指数:
S3-5:选取基尼指数最小的候选划分点为最优划分点,最优划分点对应的基尼指数为连续的训练样本特征a的基尼指数;
S3-6:按步骤S3-1~S3-2的方法计算所有取值为离散值的训练样本特征的基尼指数,按步骤S3-3~S3-5的方法计算所有取值为连续值的训练样本特征的基尼指数,并选取每个取值为连续值的训练样本特征的最优划分点;
S3-7:将所有取值为离散值的训练样本特征的基尼指数及所有最优划分点下的基尼指数进行排序,取基尼指数最小的训练样本特征作为最优划分特征。
6.如权利要求1或2所述的电力系统备用不足风险场景辨识方法,其特征在于:所述步骤S4,包括以下步骤:
S4-1:设置初始叶节点最小样本数k=2;利用步骤S2得到的训练样本集D和步骤S3构建的决策树模型进行训练,采用n次n折交叉验证法计算交叉验证误差并记录误差值;
S4-2:设置新的叶节点最小样本数k:k=k+1,对决策树模型进行训练,计算交叉验证误差并记录误差值;
S4-3:重复步骤S4-2,直至计算得到的交叉验证误差趋于稳定,对所有记录的不同叶节点最小样本数对应的交叉验证误差进行排序,选择最小的交叉验证误差对应的叶节点最小样本数作为最优叶节点最小样本数。
7.如权利要求1或2所述的电力系统备用不足风险场景辨识方法,其特征在于:所述步骤S5中,生成带纠错机制决策树序列Tst={Ts1,Ts2,…,Tsn},生成方法如下:
从步骤S2构建的训练样本集D中随机选取70%的样本组成训练集D1,15%的样本组成测试集,15%的样本组成验证集;采用训练集D1对基于CART准则的决策树模型进行训练从而生成二分类决策树Ts1,以此类推,每次随机选取上次训练集的70%的样本组成训练集,15%的样本组成测试集,15%的样本组成验证集,依次生成二分类决策树Ts2,…,Tsn,从而生成带纠错机制的决策树序列Tst={Ts1,Ts2,…,Tsn}。
8.如权利要求7所述的电力系统备用不足风险场景辨识方法,其特征在于:所述步骤S5中,生成二分类决策树的方法如下:
根据样本数据进行多次随机选取训练集、测试集和验证集,从而生成sn个二分类决策树,将sn个二分类决策树组成的决策树序列组合起来得到每个类别的决策树序列结果编码序列{M0,M1},当新样本输入该决策树序列,sn个二分类决策树分别给出一个分类结果,将该结果组合起来形成待分类样本编码Mnew,然后分别将待分类样本编码与决策树序列生成的分类结果编码进行比较,取欧式距离最小的编码对应的分类为该新样本的最终分类。
9.如权利要求1或2所述的电力系统备用不足风险场景辨识方法,其特征在于:所述步骤S6中,剪枝方法如下:
S6-1:对于决策树序列Tst中的决策树T,其叶节点个数为|T|,样本空间所属分类变量为K,t表示决策树T的一个叶节点,该叶节点有nt个样本点,其中k类的样本点有个,k∈{1,2,...,K},则叶节点t上的经验熵为:
公式(8)中Ht(T)表示经验熵,代表叶节点t的分类的混乱程度,即连接该叶节点的整个路径对数据分类的彻底性;
S6-2:采用公式(9)衡量模型对训练样本集的整体测量误差,公式(9)如下:
S6-3:对利用训练集训练生成的决策树模型,自下而上遍历每个中间节点,对于中间节点j,计算其被剪枝后整体树的损失函数减少程度g(j)并记录,公式如下:
其中,Tj表示中间节点j对应的子树,|Tj|表示中间节点j对应子树Tj包含的叶节点个数;
S6-4:根据记录得到的决策树T的所有中间节点对应的损失函数减少程度g,选取最小的g对应的中间节点为剪枝节点,对该中间节点进行剪枝去除,得到新的决策树T1;
S6-5:对新的决策树T1利用步骤S6-1~S6-4的剪枝处理方法得到新的决策树T2,以此下去进行递归不断得到新的决策树,直至新决策树不再具有内部节点,最终得到剪枝后的决策树序列Tlist={T,T1,T2,…,TN};然后利用验证集对决策树序列Tlist中所有决策树分别进行交叉验证误差估计,选择误差最小的决策树为原决策树T剪枝处理后的最优决策树Top;
S6-6:利用步骤S6-1~S6-5的方法依次对决策树序列Tst中的各个决策树进行剪枝,从而得到最优的带纠错机制的决策树序列Tops。
10.如权利要求8所述的电力系统备用不足风险场景辨识方法,其特征在于:所述步骤S8中,利用评估后的决策树模型进行电力系统备用不足风险场景辨识的方法如下:
根据电力系统实时采集的火电机组发电功率上限、火电机组发电功率下限、负荷、联络线功率、风电功率不同置信度水平下的概率预测值、光伏功率不同置信度水平下的概率预测值、电力系统正备用容量、电力系统负备用容量,输入待辨识的样本特征数据,利用最优的带纠错机制的决策树序列Tops对输入样本进行分类预测得到预测结果编码,然后与已生成的分类结果编码进行欧氏距离求解,选择欧氏距离最小的分类结果编码作为最终的分类预测结果,输出该样本是否为正备用不足风险场景或者负备用不足风险场景。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110725764.7A CN113452018B (zh) | 2021-06-29 | 2021-06-29 | 一种电力系统备用不足风险场景辨识方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110725764.7A CN113452018B (zh) | 2021-06-29 | 2021-06-29 | 一种电力系统备用不足风险场景辨识方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113452018A true CN113452018A (zh) | 2021-09-28 |
CN113452018B CN113452018B (zh) | 2022-05-06 |
Family
ID=77813758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110725764.7A Active CN113452018B (zh) | 2021-06-29 | 2021-06-29 | 一种电力系统备用不足风险场景辨识方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113452018B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091360A (zh) * | 2022-01-21 | 2022-02-25 | 武汉格蓝若智能技术有限公司 | 一种多模型融合的电压互感器误差状态评估方法 |
CN115276105A (zh) * | 2022-09-26 | 2022-11-01 | 国网浙江省电力有限公司宁海县供电公司 | 一种光伏准入容量规划与多能互补的分布式能源管理方法 |
CN117077986A (zh) * | 2023-10-16 | 2023-11-17 | 华中科技大学 | 电力系统极端运行风险场景的态势感知方法及相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150378807A1 (en) * | 2014-06-30 | 2015-12-31 | International Business Machines Corporation | Predicting process failures using analytics |
CN107800140A (zh) * | 2017-10-18 | 2018-03-13 | 天津大学 | 一种考虑负荷特征的大用户供电接入决策方法 |
CN109449985A (zh) * | 2018-12-11 | 2019-03-08 | 燕山大学 | 一种微电网控制方法及系统 |
CN109726766A (zh) * | 2019-01-04 | 2019-05-07 | 三峡大学 | 一种基于集成决策树的电力系统在线动态安全评估方法 |
WO2020140743A1 (zh) * | 2018-12-30 | 2020-07-09 | 国网天津市电力公司电力科学研究院 | 配电台区源-荷协同接入方法、终端、存储介质 |
-
2021
- 2021-06-29 CN CN202110725764.7A patent/CN113452018B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150378807A1 (en) * | 2014-06-30 | 2015-12-31 | International Business Machines Corporation | Predicting process failures using analytics |
CN107800140A (zh) * | 2017-10-18 | 2018-03-13 | 天津大学 | 一种考虑负荷特征的大用户供电接入决策方法 |
CN109449985A (zh) * | 2018-12-11 | 2019-03-08 | 燕山大学 | 一种微电网控制方法及系统 |
WO2020140743A1 (zh) * | 2018-12-30 | 2020-07-09 | 国网天津市电力公司电力科学研究院 | 配电台区源-荷协同接入方法、终端、存储介质 |
CN109726766A (zh) * | 2019-01-04 | 2019-05-07 | 三峡大学 | 一种基于集成决策树的电力系统在线动态安全评估方法 |
Non-Patent Citations (4)
Title |
---|
ANA CAROLINA DO AMARAL BURGHI: "Artificial Learning Dispatch Planning for Flexible Renewable-Energy Systems", 《ENERGIES》 * |
NANTIAN HUANG: "Power Quality Disturbances Feature Selection and Recognition Using Optimal Multi-Resolution Fast S-Transform and CART Algorithm", 《ENERGIES》 * |
廖耀华: "基于随机森林算法的风电场出力预测研究", 《长沙理工大学》 * |
郭元战: "基于随机森林的电力系统短期负荷预测研究", 《上海工程技术大学》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091360A (zh) * | 2022-01-21 | 2022-02-25 | 武汉格蓝若智能技术有限公司 | 一种多模型融合的电压互感器误差状态评估方法 |
CN114091360B (zh) * | 2022-01-21 | 2022-04-22 | 武汉格蓝若智能技术有限公司 | 一种多模型融合的电压互感器误差状态评估方法 |
CN115276105A (zh) * | 2022-09-26 | 2022-11-01 | 国网浙江省电力有限公司宁海县供电公司 | 一种光伏准入容量规划与多能互补的分布式能源管理方法 |
CN115276105B (zh) * | 2022-09-26 | 2022-12-27 | 国网浙江省电力有限公司宁海县供电公司 | 一种光伏准入容量规划与多能互补的分布式能源管理方法 |
CN117077986A (zh) * | 2023-10-16 | 2023-11-17 | 华中科技大学 | 电力系统极端运行风险场景的态势感知方法及相关设备 |
CN117077986B (zh) * | 2023-10-16 | 2024-01-30 | 华中科技大学 | 电力系统极端运行风险场景的态势感知方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113452018B (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113452018B (zh) | 一种电力系统备用不足风险场景辨识方法 | |
CN109308571B (zh) | 配电线路线变关系检测方法 | |
CN105677791B (zh) | 用于分析风力发电机组的运行数据的方法和系统 | |
CN110930198A (zh) | 基于随机森林的电能替代潜力预测方法、系统、存储介质及计算机设备 | |
CN110750524A (zh) | 一种有源配电网故障特征的确定方法及系统 | |
CN108681742B (zh) | 用于分析司机驾驶行为对车辆能耗敏感性的分析方法 | |
CN111860624A (zh) | 一种基于决策树的电网故障信息分类方法 | |
CN112257784A (zh) | 一种基于梯度提升决策树的窃电检测方法 | |
CN111881124A (zh) | 一种基于改进算法的状态估计的数据处理方法及系统 | |
CN115204536A (zh) | 楼宇设备故障预测方法、装置、设备及存储介质 | |
CN116842337A (zh) | 基于LightGBM优选特征与COA-CNN模型的变压器故障诊断方法 | |
CN113590396A (zh) | 一次设备的缺陷诊断方法、系统、电子设备及存储介质 | |
CN116245019A (zh) | 一种基于Bagging抽样及改进随机森林算法的负荷预测方法、系统、装置及存储介质 | |
CN115758151A (zh) | 联合诊断模型建立方法、光伏组件故障诊断方法 | |
CN114781520A (zh) | 基于改进lof模型的天然气行为异常检测方法及系统 | |
CN115859099A (zh) | 样本生成方法、装置、电子设备和存储介质 | |
CN115358481A (zh) | 一种企业外迁预警识别的方法、系统及装置 | |
CN116701919B (zh) | 一种陀螺式氢燃料发电机的优化监测方法及系统 | |
CN117609818A (zh) | 基于聚类与信息熵的电网关联关系发现方法 | |
CN113033898A (zh) | 基于k均值聚类与bi-lstm神经网络的电负荷预测方法及系统 | |
CN116756508A (zh) | 变压器的故障诊断方法、装置、计算机设备及存储介质 | |
CN117131449A (zh) | 面向数据治理的具有传播学习能力的异常识别方法及系统 | |
CN115409317A (zh) | 基于特征选择和机器学习的台区线损检测方法及装置 | |
CN114239999A (zh) | 基于交叉熵重要抽样的元件可靠性参数优化解析方法 | |
CN114626433A (zh) | 一种智能电能表故障预测并分类方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |