CN107274105B - 基于线性判别分析的多属性决策树电网稳定裕度评估方法 - Google Patents
基于线性判别分析的多属性决策树电网稳定裕度评估方法 Download PDFInfo
- Publication number
- CN107274105B CN107274105B CN201710507995.4A CN201710507995A CN107274105B CN 107274105 B CN107274105 B CN 107274105B CN 201710507995 A CN201710507995 A CN 201710507995A CN 107274105 B CN107274105 B CN 107274105B
- Authority
- CN
- China
- Prior art keywords
- stability
- power grid
- attribute
- data
- decision tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 48
- 238000003066 decision tree Methods 0.000 title claims abstract description 46
- 238000011156 evaluation Methods 0.000 title claims abstract description 9
- 230000008859 change Effects 0.000 claims abstract description 24
- 238000004088 simulation Methods 0.000 claims abstract description 10
- 238000012544 monitoring process Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 14
- 239000012535 impurity Substances 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 12
- 238000010219 correlation analysis Methods 0.000 claims description 10
- 230000009286 beneficial effect Effects 0.000 claims description 6
- 238000011217 control strategy Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 239000013643 reference control Substances 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000001052 transient effect Effects 0.000 abstract description 17
- 239000000284 extract Substances 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 29
- 238000004364 calculation method Methods 0.000 description 9
- 238000007418 data mining Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000001364 causal effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Supply And Distribution Of Alternating Current (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于线性判别分析的多属性决策树电网稳定裕度评估方法,基于电网的离线仿真数据及实时监测数据建立了关键变量的发现模型,对历史样本数据进行有效筛选降低数据维度,建立了关键变量间的组合关系模型,发现变量间的关联关系,并提取出能反映各变量重要程度对比的组合特征,建立了电网运行状态和暂态稳定裕度间的关联关系,确定系统稳定性水平变化的主要原因,形成简明、准确的知识规则库以及调整决策参考,进而根据系统运行状态快速评估当前稳定水平,对运行人员辅助决策提供量化信息支持,提升电网稳定性评估的标准化、快速性和自适应能力,具有广泛应用前景。
Description
技术领域
本发明涉及电网安全技术领域,具体涉及一种基于线性判别分析的多属性决策树电网稳定裕度评估方法。
背景技术
传统的电网监测系统(SCADA)难以实时获取系统故障后信息,电网的暂态稳定分析决策通常针对预想的故障集进行离线分析,然后给出辅助决策,进而通过调度员凭自身经验进行最终操作。但随着大规模可再生能源的接入和电网互联规模的扩大,电力系统的安全稳定分析和调度运行控制面临更为严峻的考验。传统的“人工经验判断+在线计算辅助决策”的生产方式已经不能满足当前电网复杂多变的调度运行需求。因此需要强有力的在线监视、决策方法,根据电网监测数据和历史事件快速进行电力系统暂态稳定评估,实时计算当前运行条件下系统的稳定水平,以帮助运行人员更好地监视、管理电网,制定切实提高电网稳定性的优化策略,使系统在预想故障下仍能安全稳定运行,是保证电网的安全稳定运行的重要手段。
随着广域量测技术普及,全国各级调度中心积累了大量的调度运行数据,这些大量数据当中蕴藏着丰富的信息,等待着被发掘。基于数据驱动的电力系统分析有助于发现未知规律、获取新的经验,逐渐成为新的关注热点。传统的建模仿真或数理推导所得的发现具有强因果关系,而从数据中抽取信息具有一定统计学意义的弱因果关系的规律,对电力系统海量数据进行数据挖掘分析,从运行状态预估电网稳定水平,对于大电网的安全评估与预防控制具有极大帮助。
目前有许多智能算法用于电力系统的数据挖掘当中,如其中较为常见的方法有神经网络法,支持向量机法,决策树法等。但是有些算法过于复杂耗时过长,不利于规则发现与在线应用。决策树算法具有算法简单,规则获取方便,判断迅速,适合在线应用等特点,但传统决策树多为单属性决策树,缺乏对电气量之间关联关系的获取。
发明内容
本发明为了解决上述问题,提出了一种基于线性判别分析的多属性决策树电网稳定裕度评估方法,本发明通过建立关键变量的发现模型,对历史样本数据进行有效筛选降低数据维度,建立关键变量间的组合关系模型,发现变量间的关联关系,建立了电网运行状态和暂态稳定裕度间的关联关系,确定系统稳定性水平变化的主要原因,形成简明、准确的知识规则库以及调整决策参考,进而根据系统运行状态快速评估当前稳定水平,对运行人员辅助决策提供量化信息支持,提升电网稳定性评估的标准化、快速性和自适应能力,具有广泛应用前景。
为了实现上述目的,本发明采用如下技术方案:
一种基于线性判别分析的多属性决策树电网稳定裕度评估方法,包括以下步骤:
(1)基于电网的离线仿真数据及实时监测数据,获取发电机有功和无功电网状态量以及在各预想故障下的稳定裕度指标,建立电网安全稳定数据库;
(2)对数据库中的电网状态量进行降维处理,通过基于互信息的数据降维模型,对数据库中的电网状态量进行抽取,抽取与相应故障稳定性相关性极大的属性;
(3)建立电网关键特征间的组合关系模型,对抽取的属性利用线性判别分析方法进行特征提取,获得反映各关键特征的组合特征;
(4)建立关联分析模型,根据得到的组合特征以及相应的稳定裕度,通过决策树算法建立特征与稳定性的关联分析,以获取不同状态的组合值与稳定性的映射关系;
(5)建立稳定关联特征规则库,对获得的模型各映射关系进行分析,提取相关可用规则,建立稳定关联特征规则库,根据规则库进行电网运行状态变化的快速判稳。
所述步骤(2)中,对电网状态数据与稳定裕度数据进行合理的离散化处理,并计算两者的互信息,依据互信息的大小得到与最终裕度关联程度的强弱关系,设定相对合理的互信息阀值,选取出与最终稳定裕度关联度大于设定阈值的属性作为关键特征属性。
所述步骤(2)中,互信息为所求变量熵与该变量的条件熵的差值。
进一步的,所述步骤(3)中,根据获取的关键电网特征获取该特征数据,在特征空间中利用线性判别分析对样本进行投影,针对不同样本所对应的稳定类别,使得投影后的特征值能达到不同类别间的样本尽可能靠近,不同类别间的数据尽可能远离。
进一步的,所述步骤(3)中,根据线性判别分析对样本进行投影,对所选数据依据其稳定裕度所属类别进行最佳投影,得出最有利于区分不同类别的投影方向,并得到投影到该方向上时各属性的组合系数,该系数即为关键特征间的组合关系。
所述步骤(4)中,建立特征与稳定性的关联分析模型时,利用智能决策树算法建立不同扰动事件与系统稳定性关系的分析模型,使用递归方式在每个步骤中最大限度降低Gini不纯度对数据进行训练分类,形成决策树。
进一步的,所述步骤(4)中,具体包括:
(4-1)从属性集中选取某属性,并从该属性中寻找分类点,若所选属性是一个连续型变量属性,则需要对样本中属性的所有值进行排序,取排序后各相邻点的中点形成分裂点候选集;
(4-2)计算以候选集中各分裂点分裂时的Gini不纯度,通过比较获取最小的Gini不纯度值以及相应的分裂点,获取每个属性的最佳分裂点;
(4-3)比较获取节点A中的最小分裂Gini不纯度值以及相应的待分裂属性,根据所获取的最佳分裂属性Xl以及相应分裂点将节点分为两个子节点;
(4-4)对子节点进行分裂,若该节点的gini不纯度小于设定的阀值,则停止其分裂;若子节点的样本数量小于设定的阀值,则停止其分裂。
进一步的,所述步骤(4)中,决策树形成后以节点所含样本数最多的类别作为该节点表征类别。
所述步骤(5)中,对于电网运行状态变化的快速判稳和原因分析及关联规则库的生成时:通过对决策树不同路径下样本判别分析,形成系统组合状态情况与稳定裕度的映射,从而得到通过系统状态进行快速判稳准依据。
所述步骤(5)中,基于支持度与置信度指标获取有效发掘各特定故障下系统运行状态的组合关系与稳定裕度之间的有效关联规则,对所获取的关联规则库进行凝练,回推引起稳定性变化的原因,并考虑不同故障在不同时刻的发生概率,并基于概率统计信息预测特定事件的未来发生及其对系统稳定性的影响,制定参考控制策略。
与现有技术相比,本发明的有益效果为:
本发明通过引入信息理论中的互信息模型对所系统特征进行完全依赖数据的降维,减少了人工干预,降低了数据维度,简化计算,并有利于规则的发现;通过线性判别的方法对所获特征进行投影,简单高效地获取了各特征之间的线性关系,有利于挖掘数据中所隐含得更多信息;通过决策树分类模型的训练分析建立了电网运行状态与稳定裕度之间的关联关系,预测电网运行变化对电网稳定性的影响,并可回推引起稳定性变化的原因,并结合电网事件发生的概率性因素,对电网运行提供切实可行的指导性原则。
本发明对系统属性进行了有效降维并获取不同属性间的组合关系。对于不同故障,不同属性对系统失稳与否的影响程度是不一样的,且对系统稳定性变化起关键作用的属性与全系统属性相比往往较少,通过剔除对系统稳定性较弱属性的降维方式有助于减少无关变量对规则的影响,简化了模型的复杂程度。建立了系统不同属性的组合关系发现模型,通过发现属性间的组合关系从数据中挖掘出更多有用信息。
本发明实现了电力系统运行状态与暂态稳定关联关系辨识。处于不同运行状态的电力系统其扰动后的暂态稳定性是不同的,从某种程度上来说,电网运行状态可以反映系统稳定水平。建立电网特定运行状态与电网稳定性间的自动映射,获取电网关键状态集,从不同运行状态及其组合中发现对电网暂态稳定性影响较大的因素,实现电网运行状态筛选和输入数据降维,通过关键发电机节点出力和断面潮流情况快速获取电网暂态稳定指标。
本发明实现了基于电网运行状态量组合关系及其对暂态稳定裕度的影响的关联规则获取方法。通过对不同系统运行状态的组合值的变化与相应暂态稳定性变化之间的关联分析,获取系统状态变化与稳定性变化的映射关系。通过电网运行状态变化预测未来电网暂态稳定性情况,并分析电网发生此变化的原因,给出状态调整策略,并结合该规则所对应的相应故障发生概率,为运行人员采取针对性的措施提供决策支持。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明中的互信息作用示意图;
图2为本发明中的线性判别分析示意图;
图3为本发明中的决策树示意图;
图4为本发明中的流程图;
具体实施方式:
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
正如背景技术所介绍的,现有技术中存在智能算法过于复杂耗时过长,不利于规则发现与在线应用、且传统决策树多为单属性决策树,缺乏对电气量之间关联关系的获取的不足,为了解决如上的技术问题,本发明提出了电网运行状态量组合关系及其对暂态稳定裕度的影响的关联规则获取方法,包括以下步骤:
步骤a):基于电网的离线仿真数据及实时监测数据,获取发电机有功、无功等电网状态量以及在各预想故障下的稳定裕度指标,进而建立电网安全稳定数据库。
步骤b):对数据库中的电网状态量进行降维处理;通过基于互信息的数据降维模型,对数据库中的电网状态量进行抽取,抽取出与相应故障稳定性相关性极大的若干属性,降低数据维度。
步骤c):建立电网关键特征间的组合关系模型;对步骤b中所得的若干属性利用线性判别分析方法进行特征提取,对数据进行进一步降维,获得可反映各关键特征的组合特征。
步骤d);建立关联分析模型;由步骤c中的组合特征以及相应的稳定裕度,通过决策树算法建立特征与稳定性的关联分析,该模型可获取不同状态的组合值与稳定性的映射关系。
步骤e):建立稳定关联特征规则库;对步骤d中模型各映射关系进行分析,提取相关可用规则,建立稳定关联特征规则库,根据规则库进行电网运行状态变化的快速判稳和原因分析。并提出预防辅助性策略。
进一步的,对步骤b,其具体包括:
对电网状态数据与稳定裕度数据进行合理的离散化处理,并计算两者的互信息;依据互信息的大小得到与最终裕度关联程度的强弱关系。
设定相对合理的互信息阀值,选取出与最终稳定裕度关联度较大的属性作为关键特征属性。
互信息计算方法如下:
I(X,Y)=H(X)-H(X|Y) (1)
(1)式中H(X)表示的是变量X的熵,其表示的是随机变量集X的平均不确定度,即X的混乱程度。熵越大表示该集混乱程度越大,越小则表明该变量集中的类型越集中。对于一个离散型随机变量集,其熵的计算公式如下:
其中m表示该变量集中有m种类别,p(i)表示第i种类别在整个集种所占的比例。
(1)式中H(X|Y)为条件熵,即在变量集Y已知的前提下,X的熵,其计算公式可表示为:
联合(2)(3)则可得离散变量集X,Y之间的互信息
式中x为随机变量集X中的其中一个类别,y为随机变量Y中的其中一个类别,p(x,y)表示类别x,y在XY联合分布中的概率,即在变量集X,Y中x和y同时出现的频率;p(x|y)表示Y为y时X为x的概率。
I(X,Y)越大表示Y的出现使得X(或X的出现使得X)的混乱度降低越多,即XY的相关性越强,若I(X,Y)为0,则表示XY在统计学意义上是独立的。本文通过计算所获取的各电气量与最终裕度之间的互信息的大小来剔除部分与最终裕度相关性不强的电气量。
进一步的,在建立电网关键特征间的组合关系时,其具体包含:
根据步骤b中的所获取的关键电网特征获取该特征数据,
在特征空间中利用线性判别分析对样本进行投影,针对不同样本所对应的稳定类别,使得投影后的特征值能达到不同类别间的样本尽可能靠近,不同类别间的数据尽可能远离。从而对所选数据依据其稳定裕度所属类别进行最佳投影,得出最有利于区分不同类别的投影方向,并得到投影到该方向上时各属性的组合系数,该系数即为关键特征间的组合关系。
进一步的,在建立特征与稳定性的关联分析模型时:
利用智能决策树算法建立不同扰动事件与系统稳定性关系的分析模型,决策树算法步骤如下:
该方法通过使用递归方式在每个步骤中最大限度降低Gini不纯度对数据进行训练分类。Gini不纯度可由下式定义:
式中A表示等待划分的节点,其中pi为类别i在节点A所有样本中所占的比例,n为类别的总数。Gini值越小说明该点样本纯度越高。当对含有N个样本的节点中针对属性A进行进一步划分为分别含N1、N2个样本的B、C两个子节点时,划分数据的Gini定义如下:
基于Gini不纯度指标通过递归的方式来形成决策树。具体步骤如下(以节点A为例):
步骤1:从属性集{X1,X2,X3,...,Xk}中选取属性Xi,i∈(1,k),并从该属性中寻找分类点。若所选属性是一个连续型变量属性,则需要对样本中属性的所有值进行排序,取排序后各相邻点的中点形成分裂点候选集。
步骤2:根据公式(4)计算以候选集中各分裂点分裂时的Gini不纯度。通过比较获取最小的Gini不纯度值以及相应的分裂点。
Ginisplit(AX1)min=min{Ginisplit(AX1)1,Ginisplit(AX1)2,......,Ginisplit(AX1)m-1}(7)
步骤3:同步骤1,2中的方法获取其他属性的最佳分裂点。
步骤4:比较获取节点A中的最小分裂Gini不纯度值以及相应的待分裂属性Xl,l∈(1,k)
Ginisplit(A)min=min{Ginisplit(AX1)min,Ginisplit(AX2)min,...,Ginisplit(AXk)min}(8)
步骤5:根据所获取的最佳分裂属性Xl以及相应分裂点将节点A分为B和C两个子节点。
步骤6:同对节点A中使用的分裂方法对子节点B与C进行分裂。若该节点的gini不纯度小于设定的阀值,则停止其分裂;若子节点的样本数量小于设定的阀值,则停止其分裂。
决策树形成后以节点所含样本数最多的类别作为该节点表征类别。
进一步的,对于电网运行状态变化的快速判稳和原因分析及关联规则库的生成时:
通过对决策树不同路径下样本判别分析,形成系统组合状态情况与稳定裕度的映射,从而得到通过系统状态进行快速判稳准依据。
通过对运行过程中积累的大量在线历史数据和大量仿真算例进行数据挖掘,
基于支持度与置信度指标获取有效发掘各特定故障下系统运行状态的组合关系与稳定裕度之间的有效关联规则,
对所获取的关联规则库进行凝练,回推引起稳定性变化的原因,并考虑不同故障在不同时刻的发生概率,并基于概率统计信息预测特定事件的未来发生及其对系统稳定性的影响,进而给出相应的参考控制策略。
作为一种典型实施例,本发明按照“数据信息的获取—数据的降维处理—相关状态组合关系建立—关联分析模型建立—规则提取与调整策略获取”的思路,通过对数据的降维去除与稳定关联度较小的属性,减少数据复杂度便于模型的分析与规则的提取,然后利用线性判别分析获取筛选后属性的组合关系,得到相应的最有利于区分不同样本类别的组合系数,最后利用决策树分析方式获得系统运行状态的组合关系与稳定裕度间的关联规则并得出相应的调整策略,最终实现能提高系统稳定性水平的操作集合的智能决策。
专利的具体实施如图4所示。通过离线仿真获取电网数据或通过EMS获取电网实时及历史运行数据,对上述数据利用互信息算法进行降维处理,并利用线性判别分析对降维后的属性进行组合关系的发掘,获得相应的组合系数,然后利用智能决策树等方法进行关联规则分析,存入规则库,基于上述规则库进行暂态稳定性变化原因快速定位与提高系统稳定性的控制策略获取。
基于电网运行状态量组合关系及其对暂态稳定裕度的影响的关联规则获取方法,具体的步骤包括:
(1)暂态稳定运行关键特征提取
步骤1):选取能直接量测或便于组合分析的特征,如母线的有功、无功负荷;母线电压幅值和相角;线路的有功和无功潮流;系统总的有功、无功负荷水平;系统总的有功、无功出力等作为备选特征集合。
步骤2):通过暂稳仿真获取不同故障下的电网的各发电机功角变化情况,利用下式计算不同故障下不同潮流状态的系统稳定裕度:
步骤3):考虑相应稳定指标的输入特征相关性分析与降维。对系统潮流状态与相应裕度根据实际系统的需要,进行相应的离散化处理,获取离散化后的系统潮流状态与相应的稳定裕度,再通过互信息算法计算潮流状态量与稳定裕度之间的相关关系,根据实际情况设定相应阀值,获取与稳定裕度关联度更大的潮流状态属性,实现数据的降维。
互信息计算方式如下:
I(X,Y)=H(X)-H(X|Y)
(1)式中H(X)表示的是变量X的熵,其表示的是随机变量集X的平均不确定度,即X的混乱程度。熵越大表示该集混乱程度越大,越小则表明该变量集中的类型越集中。对于一个离散型随机变量集,其熵的计算公式如下:
其中m表示该变量集中有m种类别,p(i)表示第i种类别在整个集种所占的比例。
(1)式中H(X|Y)为条件熵,即在变量集Y已知的前提下,X的熵,其计算公式可表示为:
联合(2)(3)则可得离散变量集X,Y之间的互信息
式中x为随机变量集X中的其中一个类别,y为随机变量Y中的其中一个类别,p(x,y)表示类别x,y在XY联合分布中的概率,即在变量集X,Y中x和y同时出现的频率;p(x|y)表示Y为y时X为x的概率。
I(X,Y)越大表示Y的出现使得X(或X的出现使得X)的混乱度降低越多,即XY的相关性越强,若I(X,Y)为0,则表示XY在统计学意义上是独立的。
(2)电力系统运行状态与暂态稳定关联关系辨识
步骤1):获取降维后属性的相关关系。对所选属性依据其稳定裕度离散化后所属类别,利用线性判别分析获取属性间的最佳组合系数,并由此获取能反映各属性之间关系的联合变量。
利用线性判别分析方法,在数据空间中找到最佳投影方向,该方向上各样本的映射值可以被最大程度的区分开来,即投影时将同类别样本尽量靠近,不同类别的样本尽量远离,以此获取最佳投影方向,而相应的投影系数即为属性间的组合系数。图2为线性判别分析示意图,该图显示了二维变量在二分类问题时获取该二维变量间组合关系的方法简单图示。
步骤2):电网运行特征和稳定裕度指标的关联关系辨识。利用决策树算法对组合后的属性进行分类训练,决策树算法利用基尼不纯度为指标采用二分方式对样本空间进行划分,将一个样本集合分成两个子集合。其分类准则为使样本划分后其基尼不纯度降低最大。基尼不纯度表示一个样本集合中样本纯净度指标,该值越高说明该样本集合中样本类别越混乱,该值越低说明样本集合中样本越集中,若基尼不纯度为0则说明该样本集合中所有样本均属于一个类别,其纯净度最高。
决策树对某集合样本分类步骤如下:
步骤a:从属性集{X1,X2,X3,...,Xk}中选取属性Xi,i∈(1,k),并从该属性中寻找分类点。若所选属性是一个连续型变量属性,则需要对样本中属性的所有值进行排序,取排序后各相邻点的中点形成分裂点候选集。
步骤b:根据公式(4)计算以候选集中各分裂点分裂时的Gini不纯度。通过比较获取最小的Gini不纯度值以及相应的分裂点。
Ginisplit(AX1)min=min{Ginisplit(AX1)1,Ginisplit(AX1)2,......,Ginisplit(AX1)m-1}(7)
步骤c:同步骤1,2中的方法获取其他属性的最佳分裂点。
步骤d:比较获取节点A中的最小分裂Gini不纯度值以及相应的待分裂属性Xl,l∈(1,k)
Ginisplit(A)min=min{Ginisplit(AX1)min,Ginisplit(AX2)min,...,Ginisplit(AXk)min}(8)
步骤e:根据所获取的最佳分裂属性Xl以及相应分裂点将节点A分为B和C两个子节点。
步骤3):重复步骤1和步骤2中的方法对步骤2中所获得的子集合进一步的划分直至达到停止划分要求,该要求包含最小基尼不纯度,最小叶节点样本数,决策树最大深度等。最小基尼不纯度即表示当该集合基尼不纯度达到该阀值时认为该分类样本纯度已经够高,该分类结果已经足够明确,最小叶节点样本数表示当某集合内样本数小于该阀值时停止对其进行划分,因为当样本过小时对其划分没有太大的意义,极易产生错误划分,决策树最大深度即表示当决策树将某集合划分成子集合的次数达到一定程度时停止进一步划分,防止决策树生长太过于复杂。通过设定阀值可以有效降低过拟合风险,使最终规则更加准确有效。
步骤4):电网运行状态变化的快速判稳和原因分析。基于支持度与置信度以及各节点样本平均暂稳裕度对步骤3中形成的决策树进行系统状态与稳定性之间的关联规则提取。通过对运行过程中积累的大量在线历史数据和大量仿真算例进行数据挖掘,基于支持度与置信度指标获取有效发掘各特定故障下系统运行状态的组合关系与稳定裕度之间的有效关联规则。对于生成的关联规则,通过仿真计算和传统的电力系统稳定机理分析相互验证。
对所获取的关联规则库进行凝练,对各关联规则进行对比,并回推引起稳定性变化的原因,如图3中集合4与集合5同属于集合2中,如果集合4与集合5的样本类别相差很大,那么可以说明是在条件A的范围下,基于对条件B的判定情况所产生的差别,而条件B即为某些关键特征的组合关系,即可依据该组合关系分析并回推引起稳定性发生重大变化的原因,进而得到可使提升系统稳定性的调整方向。
考虑不同故障在不同时刻的发生概率,并基于概率统计信息预测特定事件的未来发生及其对系统稳定性的影响,进而给出相应的参考控制策略。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (6)
1.一种基于线性判别分析的多属性决策树电网稳定裕度评估方法,其特征是:包括以下步骤:
(1)基于电网的离线仿真数据及实时监测数据,获取发电机有功和无功电网状态量以及在各预想故障下的稳定裕度指标,建立电网安全稳定数据库;
(2)对数据库中的电网状态量进行降维处理,通过基于互信息的数据降维模型,对数据库中的电网状态量进行抽取,抽取与相应故障稳定性相关性极大的属性;
(3)建立电网关键特征间的组合关系模型,对抽取的属性利用线性判别分析方法进行特征提取,获得反映各关键特征的组合特征;
(4)建立关联分析模型,根据得到的组合特征以及相应的稳定裕度,通过决策树算法建立特征与稳定性的关联分析,以获取不同状态的组合值与稳定性的映射关系;
(5)建立稳定关联特征规则库,对获得的模型各映射关系进行分析,提取相关可用规则,建立稳定关联特征规则库,根据规则库进行电网运行状态变化的快速判稳;
所述步骤(3)中,根据线性判别分析对样本进行投影,对所选数据依据其稳定裕度所属类别进行最佳投影,得出最有利于区分不同类别的投影方向,并得到投影到该方向上时各属性的组合系数,该系数即为关键特征间的组合关系;
所述步骤(5)中,对于电网运行状态变化的快速判稳和原因分析及关联规则库的生成时:通过对决策树不同路径下样本判别分析,形成系统组合状态情况与稳定裕度的映射,从而得到通过系统状态进行快速判稳准依据;
所述步骤(2)中,对电网状态数据与稳定裕度数据进行离散化处理,并计算两者的互信息,依据互信息的大小得到与最终裕度关联程度的强弱关系,设定互信息阈值,选取出与最终稳定裕度关联度大于设定阈值的属性作为关键特征属性;
所述步骤(5)中,基于支持度与置信度指标获取有效发掘各特定故障下系统运行状态的组合关系与稳定裕度之间的有效关联规则,对所获取的关联规则库进行凝练,回推引起稳定性变化的原因,并考虑不同故障在不同时刻的发生概率,并基于概率统计信息预测特定事件的未来发生及其对系统稳定性的影响,制定参考控制策略。
2.如权利要求1所述的一种基于线性判别分析的多属性决策树电网稳定裕度评估方法,其特征是:所述步骤(2)中,互信息为所求变量熵与该变量的条件熵的差值。
3.如权利要求1所述的一种基于线性判别分析的多属性决策树电网稳定裕度评估方法,其特征是:所述步骤(3)中,根据获取的关键电网特征获取该特征数据,在特征空间中利用线性判别分析对样本进行投影,针对不同样本所对应的稳定类别,使得投影后的特征值能达到不同类别间的样本尽可能靠近,不同类别间的数据尽可能远离。
4.如权利要求1所述的一种基于线性判别分析的多属性决策树电网稳定裕度评估方法,其特征是:所述步骤(4)中,建立特征与稳定性的关联分析模型时,利用智能决策树算法建立不同扰动事件与系统稳定性关系的分析模型,使用递归方式在每个步骤中最大限度降低Gini不纯度对数据进行训练分类,形成决策树。
5.如权利要求1所述的一种基于线性判别分析的多属性决策树电网稳定裕度评估方法,其特征是:所述步骤(4)中,具体包括:
(4-1)从属性集中选取某属性,并从该属性中寻找分类点,若所选属性是一个连续型变量属性,则需要对样本中属性的所有值进行排序,取排序后各相邻点的中点形成分裂点候选集;
(4-2)计算以候选集中各分裂点分裂时的Gini不纯度,通过比较获取最小的Gini不纯度值以及相应的分裂点,获取每个属性的最佳分裂点;
(4-3)比较获取节点A中的最小分裂Gini不纯度值以及相应的待分裂属性,根据所获取的最佳分裂属性Xl以及相应分裂点将节点分为两个子节点;
(4-4)对子节点进行分裂,若该节点的Gini不纯度小于设定的阈值,则停止其分裂;若子节点的样本数量小于设定的阈值,则停止其分裂。
6.如权利要求5所述的一种基于线性判别分析的多属性决策树电网稳定裕度评估方法,其特征是:所述步骤(4)中,决策树形成后以节点所含样本数最多的类别作为该节点表征类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710507995.4A CN107274105B (zh) | 2017-06-28 | 2017-06-28 | 基于线性判别分析的多属性决策树电网稳定裕度评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710507995.4A CN107274105B (zh) | 2017-06-28 | 2017-06-28 | 基于线性判别分析的多属性决策树电网稳定裕度评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107274105A CN107274105A (zh) | 2017-10-20 |
CN107274105B true CN107274105B (zh) | 2020-10-13 |
Family
ID=60069704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710507995.4A Active CN107274105B (zh) | 2017-06-28 | 2017-06-28 | 基于线性判别分析的多属性决策树电网稳定裕度评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107274105B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993139A (zh) * | 2017-11-15 | 2018-05-04 | 华融融通(北京)科技有限公司 | 一种基于动态规则库的消费金融反欺诈系统与方法 |
SE541498C2 (en) * | 2017-11-27 | 2019-10-22 | Acosense Ab | Method and system for determining process properties using active acoustic spectroscopy |
CN108548988A (zh) * | 2018-03-27 | 2018-09-18 | 南瑞集团有限公司 | 基于互信息改进决策树的线路故障预测方法 |
CN109034213B (zh) * | 2018-07-06 | 2021-08-03 | 华中师范大学 | 基于相关熵原则的高光谱图像分类方法和系统 |
CN108879732B (zh) * | 2018-08-02 | 2020-07-07 | 清华大学 | 电力系统暂态稳定评估方法及装置 |
CN109150104A (zh) * | 2018-08-10 | 2019-01-04 | 江南大学 | 一种基于随机森林算法的光伏阵列故障诊断方法 |
CN109447439A (zh) * | 2018-10-17 | 2019-03-08 | 中国电力科学研究院有限公司 | 一种基于FP-Growth算法的潮流调整样本生成方法及装置 |
CN109767113B (zh) * | 2019-01-04 | 2023-04-07 | 三峡大学 | 一种基于决策树的动态安全评估及预防控制综合方法 |
CN109726766A (zh) * | 2019-01-04 | 2019-05-07 | 三峡大学 | 一种基于集成决策树的电力系统在线动态安全评估方法 |
CN110555058A (zh) * | 2019-09-06 | 2019-12-10 | 国网江苏省电力公司信息通信分公司 | 基于改进决策树的电力通信设备状态的预测方法 |
CN111209946B (zh) * | 2019-12-31 | 2024-04-30 | 上海联影智能医疗科技有限公司 | 三维图像处理方法、图像处理模型训练方法及介质 |
CN111340527B (zh) * | 2020-02-13 | 2023-06-20 | 贝壳技术有限公司 | 房屋评估方法、装置、计算机可读存储介质及电子设备 |
CN112003734B (zh) * | 2020-07-28 | 2022-06-07 | 长沙理工大学 | 一种基于改进结构熵的信息物理系统关键节点辨识方法 |
CN112564090B (zh) * | 2020-11-20 | 2023-04-07 | 东北电力大学 | 基于mblda的交直流系统暂态电压稳定监测方法 |
CN112613068B (zh) * | 2020-12-15 | 2024-03-08 | 国家超级计算深圳中心(深圳云计算中心) | 一种多重数据混淆隐私保护方法及系统、存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512799A (zh) * | 2015-11-26 | 2016-04-20 | 中国电力科学研究院 | 一种基于海量在线历史数据的电力系统暂态稳定评估方法 |
-
2017
- 2017-06-28 CN CN201710507995.4A patent/CN107274105B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512799A (zh) * | 2015-11-26 | 2016-04-20 | 中国电力科学研究院 | 一种基于海量在线历史数据的电力系统暂态稳定评估方法 |
Non-Patent Citations (3)
Title |
---|
An Associative Classification Method for the Operation Rule Extracting Based on Decision Tree;Xiongwei Hu,etc;《2016 IEEE PES Asia-Pacific Power and Energy Conference》;20161212;第III节 * |
基于决策树的组合分类器的构建和部署;胡记兵;《中国优秀硕士学位论文全文数据库 信息科技辑》;20081115(第11期);第3.1节-第4.1节 * |
采用线性决策树的暂态稳定规则提取;孙宏斌等;《中国电机工程学报》;20111205;第31卷(第34期);摘要、第2.1节、第2.3节、第3节、第4.2节 * |
Also Published As
Publication number | Publication date |
---|---|
CN107274105A (zh) | 2017-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107274105B (zh) | 基于线性判别分析的多属性决策树电网稳定裕度评估方法 | |
CN110705873B (zh) | 一种配电网运行状态画像分析方法 | |
CN107038167A (zh) | 基于模型评估的大数据挖掘分析系统及其分析方法 | |
CN110750524A (zh) | 一种有源配电网故障特征的确定方法及系统 | |
CN109492857A (zh) | 一种配电网故障风险等级预测方法和装置 | |
CN105335752A (zh) | 一种基于主成分分析多变量决策树的接线方式识别方法 | |
CN106485089B (zh) | 谐波用户典型工况的区间参数获取方法 | |
CN110232499A (zh) | 一种配电网信息物理侧风险预警方法及系统 | |
Pietrucha-Urbanik | Multidimensional comparative analysis of water infrastructures differentiation | |
CN111652479A (zh) | 一种针对电力系统动态安全评估的数据驱动方法 | |
CN110555058A (zh) | 基于改进决策树的电力通信设备状态的预测方法 | |
CN112364928A (zh) | 一种变电站故障数据诊断中的随机森林分类方法 | |
CN114689965A (zh) | 基于嵌入式智能传感器的电力设备在线监测方法及系统 | |
CN110968703B (zh) | 基于lstm端到端抽取算法的异常计量点知识库构建方法及系统 | |
CN114091549A (zh) | 一种基于深度残差网络的设备故障诊断方法 | |
CN114626433A (zh) | 一种智能电能表故障预测并分类方法、装置及系统 | |
CN113726558A (zh) | 基于随机森林算法的网络设备流量预测系统 | |
CN117609818A (zh) | 基于聚类与信息熵的电网关联关系发现方法 | |
CN117390546A (zh) | 一种面向即时反窃电检测的多模数据库融合存算模型 | |
CN108123436B (zh) | 基于主成分分析和多元回归算法的电压越限预测模型 | |
CN117034149A (zh) | 故障处理策略确定方法、装置、电子设备和存储介质 | |
CN115186935B (zh) | 一种机电设备非线性故障预测方法及系统 | |
CN111391694A (zh) | 一种充电站运行维护的多层次快速数据监测方法和系统 | |
CN112241812B (zh) | 基于单边优化与遗传算法协作的低压配电网拓扑识别方法 | |
CN115017238A (zh) | 一种可动态预测的数据流量检测分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |