CN106897821A - 一种暂态评估特征选择方法及装置 - Google Patents
一种暂态评估特征选择方法及装置 Download PDFInfo
- Publication number
- CN106897821A CN106897821A CN201710059643.7A CN201710059643A CN106897821A CN 106897821 A CN106897821 A CN 106897821A CN 201710059643 A CN201710059643 A CN 201710059643A CN 106897821 A CN106897821 A CN 106897821A
- Authority
- CN
- China
- Prior art keywords
- feature
- sample
- node
- impurity level
- transient state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001052 transient effect Effects 0.000 title claims abstract description 33
- 238000013459 approach Methods 0.000 title claims abstract description 13
- 238000007637 random forest analysis Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000008859 change Effects 0.000 claims abstract description 8
- 238000012217 deletion Methods 0.000 claims abstract description 8
- 230000037430 deletion Effects 0.000 claims abstract description 8
- 239000012535 impurity Substances 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 11
- 238000000926 separation method Methods 0.000 claims description 11
- 238000003066 decision tree Methods 0.000 claims description 10
- 230000004992 fission Effects 0.000 claims description 5
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 23
- 238000010586 diagram Methods 0.000 description 12
- 238000013507 mapping Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000008030 elimination Effects 0.000 description 6
- 238000003379 elimination reaction Methods 0.000 description 6
- 230000006641 stabilisation Effects 0.000 description 6
- 238000011105 stabilization Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000013097 stability assessment Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 240000002853 Nelumbo nucifera Species 0.000 description 2
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 2
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种暂态评估特征选择方法及装置,该法包括:构建加权随机森林模型;从计算的特征重要性中删除重要性最低的特征;对删除后保留的技术特征进行最终特征排序;根据袋外数据OOB错误率曲线变化情况,保留排名靠前的特征。本发明提供的技术方案的加权随机森林通过引入少数失稳样本数据权重因子即可有效减少不平衡数据对特征选择的影响,能选择出比普通随机森林算法性能更优的特征子集;无需人工设定阀值大小,确保了选取特征子集的合理性。
Description
技术领域
本发明属于地理系统安全稳定分析技术领域,具体讲涉及一种暂态评估特征选择方法及装置。
背景技术
电力系统暂态稳定评估(transient stability assessment,TSA)是保证电力系统安全稳定运行的重要手段之一。随着特高压交直流混联大电网格局的逐步形成,电力系统安全稳定特性与机理日趋复杂,电网的运行控制难度不断加大,对电力系统暂态稳定评估的精准提出了新的要求。近年来随着计算机技术的快速发展,基于机器学习技术的暂态稳定评估方法具有在线评估速度快、挖掘潜在信息等优势,在暂态稳定评估中具有很好的发展前景。然而,由于电力系统稳定状态样本数量巨大、特征量差别非常小,形成大量的相近特征。对于大多数机器学习预测和分类算法,如果输入特征集中包含大量与输出目标无关或关联不大的特征,会降低预测的效率和精度,且输入特征维数越高,稳定评估算法的设计和训练越困难,因此为了避免过度拟合,改进预测性能及提高效率,进行特征选择、删除不相关的冗余特征是数据处理过程中必不可少的步骤。
针对电力系统暂态稳定评估的特征选择问题,已有国内外学者做了相关研究。目前已有文献利用随机森林算法对初始确定的特征量进行重要性排序计算,删除部分重要性低的特征。随机森林是(random forest,RF)是加州伯克利分校的Breiman Leo提出的一种集成的统计学习方法,具有准确率高、不容易出现过拟合等优点,是目前最流行的机器学习算法之一。现有技术虽然可以利用随机森林对特征重要性排序但未考虑实际电力系统在线历史数据中稳定样本多而失稳样本极少的特点,并且未给出选择阀值确定的标准。
因此,需要提供一种基于随机森林和递归特征消除策略相结合的组合式特征选择算法用于暂态稳定评估过程中的特征选择,克服原算法的不足。
发明内容
针对现有技术的不足,本发明提出了一种暂态评估特征选择方法及装置。
一种暂态评估特征选择方法,所述方法包括:
I、构建加权随机森林模型,得到特征重要性和袋外数据OOB错误率;
II、从计算的特征重要性中删除重要性最低的特征;
III、对删除后保留的特征进行最终特征排序;
IV、根据袋外数据OOB错误率曲线变化情况,保留最终特征排序排名靠前的特征。
进一步的,所述步骤II的所述特征重要性的计算包括:
用Gini系数衡量分裂过程中节点n的样本不纯度;
计算分裂后节点n的样本不纯度的下降量;
根据样本不纯度的下降量,确定特征变量Xi的特征重要性。
进一步的,所述节点n的样本不纯度i如下式所示:
其中,p(j)为节点n中属于类别j的样本所占的比例。
进一步的,所述节点n分裂为左子节点和右子节点,所述分裂后节点n的样本不纯度的下降量Δi如下式所示:
Δi=i-(pleft·ileft+pright·iright)
其中,i为节点n的样本不纯度;pleft为左子节点样本所占的比例;ileft为左子节点的样本不纯度;pright在右子节点样本所占的比例;iright为右子节点的样本不纯度。
进一步的,特征变量Xi的特征重要性ΔI如下式所示:
其中,Δik为第k个节点的不纯度的下降量。
进一步的,所述步骤III包括:按随机森林生成决策树中用加权的线性集成方式,赋予不同类别样本数不同的权重,根据计算子节点最佳分离值和确定终节点的类标签,确定特征排序。
进一步的,按下式计算未分裂的节点N的最佳分离值i(N):
Δi=i(N)-i(NL)-i(NR)
其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重;Δi为不纯度的下降量;NL为分裂后的左子节点;NR为分裂后的右子节点。
进一步的,所述终节点的类标签nodeclass如下式所示:
其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重。
一种暂态评估特征选择装置,所述装置包括:
模型建立模块,用于构建加权随机森林模型,得到特征重要性和袋外数据OOB错误率;
计算模块,用于从计算的特征重要性中删除重要性最低的特征;
确定模块,用于对删除后保留的特征进行最终特征排序;;
执行模块,用于根据袋外数据OOB错误率曲线变化情况,保留最终特征排序排名靠前的特征。
进一步的,所述计算模块,用于计算特征重要性,包括:
用Gini系数衡量分裂过程中节点n的样本不纯度;
计算分裂后节点n的样本不纯度的下降量;
根据样本不纯度的下降量,确定特征变量Xi的特征重要性。
进一步的,所述计算模块,计算的所述节点n的样本不纯度i如下式所示:
其中,p(j)为节点n中属于类别j的样本所占的比例。
进一步的,所述节点n分裂为左子节点和右子节点,所述计算模块,计算的所述分裂后节点n的样本不纯度的下降量Δi如下式所示:
Δi=i-(pleft·ileft+pright·iright)
其中,i为节点n的样本不纯度;pleft为左子节点样本所占的比例;ileft为左子节点的样本不纯度;pright在右子节点样本所占的比例;iright为右子节点的样本不纯度。
进一步的,所述计算模块,计算的特征变量Xi的特征重要性ΔI如下式所示:
其中,Δik为第k个节点的不纯度的下降量。
进一步的,所述确定模块,具体用于按随机森林生成决策树中用加权的线性集成方式,赋予不同类别样本数不同的权重,根据计算子节点最佳分离值和确定终节点的类标签,确定特征排序。
进一步的,所述确定模块,具体用于,
按下式计算未分裂的节点N的最佳分离值i(N):
Δi=i(N)-i(NL)-i(NR)
其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重;Δi为不纯度的下降量;NL为分裂后的左子节点;NR为分裂后的右子节点。
进一步的,所述确定模块,确定所述终节点的类标签nodeclass如下式所示:
其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重。
与最接近的现有技术比,本发明提供的技术方案具有以下有益效果:
1、本发明提供的技术方案的加权随机森林通过引入少数失稳样本数据权重因子即可有效减少不平衡数据对特征选择的影响,能选择出比普通随机森林算法性能更优的特征子集。
2、本发明提供的技术方案结合递归特征消除策略后能根据数据自身特点确定最终阀值的大小,无需人工设定阀值大小,确保了选取特征子集的合理性。
附图说明
图1为本发明的流程图;
图2为本发明最佳实施例中新英格兰39节点系统示意图;
图3为本发明最佳实施例中不同特征数对错误率的影响示意图;
图4为本发明最佳实施例中原始特征集映射示意图;
图5为本发明最佳实施例中WRF-RFE提取的特征子集映射示意图;
图6为本发明最佳实施例中RF-RFE提取的特征子集映射图示意图。
具体实施方式
下面结合附图对本发明做进一步详细说明。为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
基于加权随机森林的特征排序
随机森林算法不仅是一个集成分类算法,而且另外一个重要作用是在分类过程中可以度量特征重要性(Variable Importance,VI),计算特征重要性得分以实现特征选择。随机森林中计算变量重要性的方法有两种:一是基于袋外数据OOB(Out-of-bag)平均下降准确率的方法,即计算Permutation importance值,二是基于决策点特征分裂时GINI指数下降量的方法即计算Gini importance值。本发明选取的是基于Gini importance值来计算特征重要性得分,即在生长决策树的过程中,分类数充分生长,无需剪枝操作,从而使每个节点的不纯度到达最小。随机森林采用的决策树均为二叉树,生长过程中遵循自上而下的递归分裂原则,节点根据不纯度最小原则分裂为两个子节点,这两个子节点分别命名为左子节点和右子节点,左子节点和右子节点均为该节点的下一级。所有节点遵循同样的规则,从根节点开始依次分裂下去直到满足停止规则。每次分裂都是基于使节点不纯度下降最多的特征,因此到达该节点的所有特征中,该特征对类别分类影响最大。
节点n分裂在分裂的过程中,用Gini系数来衡量该节点的样本不纯度是,Gini系数定义为:
式中:i——节点n的不纯度;
p(j)——节点n中属于类别j的样本所占的比例。
当节点n上的所有样本均属于同一类别时,则该节点的不纯度i=0。选择最佳特征分裂节点后,子节点的样本纯度比父节点更高,则分裂后样本不纯度的下降量为:
Δi=iparent-(pleft·ileft+pright·iright) (2)
式中:pleft——左子节点中样本所占的比例;
pright——右子节点中样本所占的比例;
iparent——父节点的Gini系数;
ileft——左子节点的Gini系数;
iright——右子节点的Gini系数。
对于任意一个特征变量Xi,计算该随机森林模型训练过程中所有选择该特征为分裂特征时节点的不纯度降低量总和,可获得Xi的Gini importance,即:
该值的大小可以衡量每个特征的重要性程度,其值越大说明该特征越重要。
随机森林算法应用于分类以及回归问题,已经发展很成熟了,相比较而言利用随机森林对特征重要性进行重要性度量仍然有很多地方值得进行深入研究。随机森林模型训练时采用的训练集是bootstrapping放回的抽样技术,每次生成样本集都是均匀取样。然而在电力系统运行样本数据中稳定样本多而失稳样本少,样本比例不平衡,这样失稳样本被抽中的概率就很小。然而随机森林在处理不平衡数据时存在偏向,选择的特征不能真正区分稳定样本与失稳样本的分类。因此,本发明在随机森林生成决策树的过程中采用加权的线性集成方式,即数量少的失稳样本被赋予较大的权重而数量多的稳定样本被赋予相对小的权重。赋予不同类别样本数不同大小的权重后,将会在两个地方对随机森林算法产生影响:一个是决策树的生长过程,因为在生长过程中,类权重会参与到寻找每个子节点(非终节点)最佳分离值的计算中;另一个是对终节点的投票结果的影响,在每个终节点确定类标签时,也会涉及到类权重。计算过程如下:
在决策树的生长过程中,将选择加权Gini不纯度来寻找分裂点,如下式所示:
Δi=i(N)-i(NL)-i(NR) (5)
式中,N——未分裂的节点;
NL——分裂后的左子节点;
NR——分裂后的右子节点;
Wi——第i类样本的类权重;
ni——节点内i类样本的数量;
Δi——不纯度的减少量。
在终节点的投票过程中,类权重将会参与决定其类标签最终属于哪个类别的计算,如下式所示:
从随机森林算法的原理分析,尽管权重设置不能在抽样过程中提高选中失稳样本的概率,但是一旦选中数量少的失稳样本,权重会直接参与特征选择与OOB误差估计过程中,减少由于样本不均衡而影响特征选择结果。
基于递归消除策略的特征选择阀值的确定
随机森林算法可以计算特征重要性得分,给出特征排序表,但是无法给出划分特征是否为重要特征的阀值。阀值选择过大或者过小都会影响到最终选取特征的有效性。在应用于不同数据集时,阀值的大小是不同的,而该阀值的选取一般由人工选取,并没有一定的标准。因此,为了尽可能地降低人为因素的干扰,本专利在随机森林特征选择算法的基础上引入递归特征消除方法,解决特征重要性阀值选取问题。
递归特征消除(Recursive Feature Elimination,RFE)是一种处理问题的策略,它可以分为两种前向和后向。本发明将后向递归特征消除思想引入随机森林特征选择过程,形成组合算法(random forest-recursive features elimination,RF-RFE)。开始时利用全部的特征构建随机森林模型,并用随机森林的OOB错误率评价该特征集合的分类能力,然后删除本次特征评价得分最低的特征。下一次迭代的时候,用剩余的特征集合建模,并重新计算剩余特征的得分,删除这次得分最低特征,直到当前剩余特征集合为空为止。最终根据特征消除的顺序来确定特征集的排序。在确定特征集的排序顺序后,根据特征数与OOB错误率变化曲线图来确定特征是否重要的阀值大小。这样阀值大小是由结合数据自身特点来确定,保证特征子集的质量。RF-RFE算法的伪代码为:
根据特征减少过程中,OOB错误率曲线变化情况,保留排名靠前的特征
实施例一、样本集的构造
本专利采用新英格兰39节点系统作为测试系统,系统结构如图2所示,包含10台发电机、39个节点、46条支路、19个负荷点。发电机模型采用4阶模型,负荷模型为恒阻抗模型。
在电力系统运行过程中,随机电网潮流状态应满足潮流方程,而该方程为f(A,p,D,u,x)=0。其中A是关联矩阵,表示网络的结构变量,由电网拓扑决定;p是网络元件参数,例如输电线参数、变压器参数等;D是不可控变量,例如一般意义上的系统负荷;u是控制变量,例如发电机的有功功率和机端电压、电容电抗器投切等;x是依从变量。
变量确定后,系统的运行状态随之确定,这些被确定的量为依从变量。所以通过上述潮流方程发现,通过波动A,p,D,u均可以得到随即电网潮流方式,而本发明采用在不同负荷水平下波动控制变量中的发电机出力变量,来获取的随机电网潮流状态:
1)选择一个运行方式作为潮流基准,各负荷水平是以基准负荷85%-105%之间,以5%为步长得到5组负荷数据。
2)发电机在线的有功出力,其波动范围是85%-115%,随机生成该分范围内均匀随机数,每种负荷水平下随机生成400种潮流方案,共有2000种随机潮流方式。
3)每种潮流方案下,在母线3和母线4之间的线路中间设三相短路,1s后切除线路和故障。用PSD-BPA进行时域仿真计算,按在仿真结束时,任意两台发电机的最大相对功角差是否大于360°来判定系统是否失稳。仿真共得2000个样本,其中稳定样本1790个,失稳样本210个。
实施例二、原始输入特征的构造
基于机器学习技术实现暂态稳定评估一个关键步骤就是选择合理的状态量作为分类器的输入特征。对于某一具体的电力系统,当系统的发电机分布、发电机出力水平、负荷水平、负荷分布以及故障条件等因素确定之后,系统的稳定水平就是确定的了。因此,本发明采用故障前的稳态运行信息作为原始特征集的候选输入特征集。稳态运行变量作为原始特征集时评估速度快、在线评估不需要数值仿真;一般通过特征选择识别出的关键特征即是运行人员应重点监控的运行变量。并且,利用稳态运行变量作为输入特征,后期提取出的运行规则,能提供有效的运行方式调整和预防控制对策信息。本发明在已有研究的基础上,为客观评价各稳态状态变量对电网安全评估的贡献程度,选择的候选输入特征几乎涵盖了所有的电网稳态状态量,选择的稳态状态变量共263维,如表1所示。
表1原始输入特征集
实施例三、特征选择结果
随机森林算法的需要设定的参数主要有两个:随机森林中树的个数和树节点中预选特征的个数。其中树节点中预选特征的个数取默认值(p为训练集中特征的个数),决策树个数的设定为300。
本发明对比了结合递归特征消除策略过程中,采用加权随机森林形成的WRF-RFE方法与采用普通随机森林形成RF-RFE方法(Random Forest-Recursive FeatureElimination)特征选择的效果。对于样本数少的类设置较大的权重,合理设置权重能提高特征选择的效果,发明中稳定样本与失稳样本的权重值设置为1:3。
根据在递归消除特征过程中,记录特征数与OOB错误率的变化关系可得图3。由图3可知,随着特征的逐渐剔除,OOB错误率开始保持不变,说明删除的特征对分类结果影响无赶紧要。当特征数减少到某一数量后,错误率开始突增,说明有重要特征被删除。因此,最优特征子集应该取错误率突变前的特征集。
为了验证所提方法的有效性,将所得特征子集与原始特征集A及应用常用的Boruta算法所得特征子集进行了对比测试。测试的分类器模型采用台湾大学林智仁教授等研究人员开发的一个用于支持向量机程序包。训练暂态稳定评估模型时,SVM的核函数选用径向基核函数,并且通过交叉验证最佳参数C(惩罚参数)与g(核函数中的gamma函数设置)。测试时随机选择2/3的样本作为训练集训练SVM模型,剩下的1/3作为测试集。考虑到样本集选取时存在一定的偶然性,每组实验运行五次取平均值,结果见表2。其中,将稳定样本判定为失稳为误分,将失稳判稳稳定为漏分。
表2特征选择结果
由表2可以看出,通过加权随机森林算法选择的特征子集比没有引入权重因子的随机森林选择的特征子集更能区分系统的稳定状态,并且选择出的特征子集规模更小。与原始特征相比,所提方法选出的特征子集的分类能力基本保持不变甚至是准确率更高,这是因为减少了无关冗余特征的干扰。
为了从可视化的角度分析提取子特征集与原始特征集的关系,本发明还引入了一种叫做Sammon映射的数据结构分析算法。Sammon映射算法通过非线性变换,将高维空间的样本数据映射到低维空间中,并尽量使低维空间中样本之间的距离和高维空间中样本之间的距离保持不变。因此,能够在低维空间上直观、形象地展现原数据间的结构信息。
图4至图6分别是新格兰10机39节点系统的原始特征集以及分布利用WRF-RFE、RF-RFE算法提取的特征子集的样本数据映射到二维空间后的映射分布图。图4和5中稳定样本与失稳样本映射点重叠点较少,说明原始特征集和WRF-RFE法选择的特征子集是具有分类能力的,能将稳定样本与失稳样本区分开。而图6中稳定样本与失稳样本映射点混杂较多,说明RF-RFE方法选择特征子集的效果不理想,很难通过机器学习模型判断系统状态。另一方面,对比图4和图5可知,WRF-RFE选择的特征子集的映射分布和原始特征集的映射分布基本能保持一致,说明所选取的特征子集基本能保持原始特征的数据结构特性,从另外一个方面证明了所提方法的有效性。
一种暂态评估特征选择装置,所述装置包括:
模型建立模块,用于构建加权随机森林模型,得到特征重要性和袋外数据OOB错误率;
计算模块,用于从计算的特征重要性中删除重要性最低的特征;
确定模块,用于对删除后保留的特征进行最终特征排序;;
执行模块,用于根据袋外数据OOB错误率曲线变化情况,保留最终特征排序排名靠前的特征。
所述计算模块,用于计算特征重要性,包括:
用Gini系数衡量分裂过程中节点n的样本不纯度;
计算分裂后节点n的样本不纯度的下降量;
根据样本不纯度的下降量,确定特征变量Xi的特征重要性。
所述计算模块,计算的所述节点n的样本不纯度i如下式所示:
其中,p(j)为节点n中属于类别j的样本所占的比例。
所述节点n分裂为左子节点和右子节点,所述计算模块,计算的所述分裂后节点n的样本不纯度的下降量Δi如下式所示:
Δi=i-(pleft·ileft+pright·iright)
其中,i为节点n的样本不纯度;pleft为左子节点样本所占的比例;ileft为左子节点的样本不纯度;pright在右子节点样本所占的比例;iright为右子节点的样本不纯度。
所述计算模块,计算的特征变量Xi的特征重要性ΔI如下式所示:
其中,Δik为第k个节点的不纯度的下降量。
所述确定模块,具体用于按随机森林生成决策树中用加权的线性集成方式,赋予不同类别样本数不同的权重,根据计算子节点最佳分离值和确定终节点的类标签,确定特征排序。
所述确定模块,具体用于,
按下式计算未分裂的节点N的最佳分离值i(N):
Δi=i(N)-i(NL)-i(NR)
其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重;Δi为不纯度的下降量;NL为分裂后的左子节点;NR为分裂后的右子节点。
所述确定模块,确定所述终节点的类标签nodeclass如下式所示:
其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
Claims (16)
1.一种暂态评估特征选择方法,其特征在于,所述方法包括:
I、构建加权随机森林模型,得到特征重要性和袋外数据OOB错误率;
II、从计算的特征重要性中删除重要性最低的特征;
III、对删除后保留的特征进行最终特征排序;
IV、根据袋外数据OOB错误率曲线变化情况,保留最终特征排序排名靠前的特征。
2.如权利要求1所述的一种暂态评估特征选择方法,其特征在于,所述步骤II的所述特征重要性的计算包括:
用Gini系数衡量分裂过程中节点n的样本不纯度;
计算分裂后节点n的样本不纯度的下降量;
根据样本不纯度的下降量,确定特征变量Xi的特征重要性。
3.如权利要求2所述的一种暂态评估特征选择方法,其特征在于,所述节点n的样本不纯度i如下式所示:
其中,p(j)为节点n中属于类别j的样本所占的比例。
4.如权利要求2所述的一种暂态评估特征选择方法,其特征在于,所述节点n分裂为左子节点和右子节点,所述分裂后节点n的样本不纯度的下降量Δi如下式所示:
Δi=i-(pleft·ileft+pright·iright)
其中,i为节点n的样本不纯度;pleft为左子节点样本所占的比例;ileft为左子节点的样本不纯度;pright在右子节点样本所占的比例;iright为右子节点的样本不纯度。
5.如权利要求2所述的一种暂态评估特征选择方法,其特征在于,特征变量Xi的特征重要性ΔI如下式所示:
其中,Δik为第k个节点的不纯度的下降量。
6.如权利要求1所述的一种暂态评估特征选择方法,其特征在于,所述步骤III包括:按随机森林生成决策树中用加权的线性集成方式,赋予不同类别样本数不同的权重,根据计算子节点最佳分离值和确定终节点的类标签,确定特征排序。
7.如权利要求6所述的一种暂态评估特征选择方法,其特征在于,按下式计算未分裂的节点N的最佳分离值i(N):
Δi=i(N)-i(NL)-i(NR)
其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重;Δi为不纯度的下降量;NL为分裂后的左子节点;NR为分裂后的右子节点。
8.如权利要求6所述的一种暂态评估特征选择方法,其特征在于,所述终节点的类标签nodeclass如下式所示:
其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重。
9.一种暂态评估特征选择装置,其特征在于,所述装置包括:
模型建立模块,用于构建加权随机森林模型,得到特征重要性和袋外数据OOB错误率;
计算模块,用于从计算的特征重要性中删除重要性最低的特征;
确定模块,用于对删除后保留的特征进行最终特征排序;;
执行模块,用于根据袋外数据OOB错误率曲线变化情况,保留最终特征排序排名靠前的特征。
10.如权利要求9所述的一种暂态评估特征选择装置,其特征在于,所述计算模块,用于计算特征重要性,包括:
用Gini系数衡量分裂过程中节点n的样本不纯度;
计算分裂后节点n的样本不纯度的下降量;
根据样本不纯度的下降量,确定特征变量Xi的特征重要性。
11.如权利要求10所述的一种暂态评估特征选择装置,其特征在于,所述计算模块,计算的所述节点n的样本不纯度i如下式所示:
其中,p(j)为节点n中属于类别j的样本所占的比例。
12.如权利要求10所述的一种暂态评估特征选择装置,其特征在于,所述节点n分裂为左子节点和右子节点,所述计算模块,计算的所述分裂后节点n的样本不纯度的下降量Δi如下式所示:
Δi=i-(pleft·ileft+pright·iright)
其中,i为节点n的样本不纯度;pleft为左子节点样本所占的比例;ileft为左子节点的样本不纯度;pright在右子节点样本所占的比例;iright为右子节点的样本不纯度。
13.如权利要求10所述的一种暂态评估特征选择装置,其特征在于,所述计算模块,计算的特征变量Xi的特征重要性ΔI如下式所示:
其中,Δik为第k个节点的不纯度的下降量。
14.如权利要求9所述的一种暂态评估特征选择装置,其特征在于,所述确定模块,具体用于按随机森林生成决策树中用加权的线性集成方式,赋予不同类别样本数不同的权重,根据计算子节点最佳分离值和确定终节点的类标签,确定特征排序。
15.如权利要求14所述的一种暂态评估特征选择装置,其特征在于,所述确定模块,具体用于,
按下式计算未分裂的节点N的最佳分离值i(N):
Δi=i(N)-i(NL)-i(NR)
其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重;Δi为不纯度的下降量;NL为分裂后的左子节点;NR为分裂后的右子节点。
16.如权利要求14所述的一种暂态评估特征选择装置,其特征在于,所述确定模块,确定所述终节点的类标签nodeclass如下式所示:
其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710059643.7A CN106897821B (zh) | 2017-01-24 | 2017-01-24 | 一种暂态评估特征选择方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710059643.7A CN106897821B (zh) | 2017-01-24 | 2017-01-24 | 一种暂态评估特征选择方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106897821A true CN106897821A (zh) | 2017-06-27 |
CN106897821B CN106897821B (zh) | 2023-07-21 |
Family
ID=59198603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710059643.7A Active CN106897821B (zh) | 2017-01-24 | 2017-01-24 | 一种暂态评估特征选择方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106897821B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107782442A (zh) * | 2017-10-24 | 2018-03-09 | 华北电力大学(保定) | 基于大数据和随机森林的变压器多特征参量选择方法 |
CN108171367A (zh) * | 2017-12-19 | 2018-06-15 | 天津市市政工程设计研究院 | 一种公交车服务水平可靠性预测方法 |
CN109033702A (zh) * | 2018-08-23 | 2018-12-18 | 国网内蒙古东部电力有限公司电力科学研究院 | 一种基于卷积神经网络cnn的电力系统暂态电压稳定评估方法 |
CN109117956A (zh) * | 2018-07-05 | 2019-01-01 | 浙江大学 | 一种最佳特征子集的确定方法 |
CN109726766A (zh) * | 2019-01-04 | 2019-05-07 | 三峡大学 | 一种基于集成决策树的电力系统在线动态安全评估方法 |
CN110363403A (zh) * | 2019-06-27 | 2019-10-22 | 中国铁道科学研究院集团有限公司 | 铁路钢轨损伤预测方法及装置 |
CN110417011A (zh) * | 2019-07-31 | 2019-11-05 | 三峡大学 | 一种基于互信息与迭代随机森林的在线动态安全评估方法 |
CN110458323A (zh) * | 2019-06-27 | 2019-11-15 | 广东工业大学 | 一种基于快速序列浮动特征选择的短期住宅负荷预测方法 |
CN110516710A (zh) * | 2019-07-25 | 2019-11-29 | 湖南星汉数智科技有限公司 | 网页分类方法、装置、计算机装置及计算机可读存储介质 |
CN110718910A (zh) * | 2019-10-29 | 2020-01-21 | 国网四川省电力公司经济技术研究院 | 贝叶斯优化LightGBM的暂态稳定评估方法 |
CN111060813A (zh) * | 2019-12-09 | 2020-04-24 | 国网北京市电力公司 | 高压断路器操作机构的故障诊断方法及装置、电子设备 |
CN112674779A (zh) * | 2020-12-25 | 2021-04-20 | 西华大学 | 一种基于ecg信号的睡眠自动分期方法 |
CN112836735A (zh) * | 2021-01-27 | 2021-05-25 | 中山大学 | 一种优化的随机森林处理不平衡数据集的方法 |
CN113240321A (zh) * | 2021-05-31 | 2021-08-10 | 中海石油(中国)有限公司 | 一种基于深度学习的油田类比评价方法及系统 |
CN114077874A (zh) * | 2022-01-17 | 2022-02-22 | 广东工业大学 | 基于分段采样的段域神经网络回归方法、系统及存储介质 |
CN116824171A (zh) * | 2023-06-28 | 2023-09-29 | 广东省新黄埔中医药联合创新研究院 | 中医高光谱舌象图像波段的选择方法及相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103500344A (zh) * | 2013-09-02 | 2014-01-08 | 中国测绘科学研究院 | 一种遥感影像信息提取与解译方法及其模块 |
US8818910B1 (en) * | 2013-11-26 | 2014-08-26 | Comrise, Inc. | Systems and methods for prioritizing job candidates using a decision-tree forest algorithm |
CN105139289A (zh) * | 2015-09-06 | 2015-12-09 | 清华大学 | 一种基于错分代价分类学习的电网暂态电压稳定评估方法 |
CN105931224A (zh) * | 2016-04-14 | 2016-09-07 | 浙江大学 | 基于随机森林算法的肝脏平扫ct图像病变识别方法 |
-
2017
- 2017-01-24 CN CN201710059643.7A patent/CN106897821B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103500344A (zh) * | 2013-09-02 | 2014-01-08 | 中国测绘科学研究院 | 一种遥感影像信息提取与解译方法及其模块 |
US8818910B1 (en) * | 2013-11-26 | 2014-08-26 | Comrise, Inc. | Systems and methods for prioritizing job candidates using a decision-tree forest algorithm |
CN105139289A (zh) * | 2015-09-06 | 2015-12-09 | 清华大学 | 一种基于错分代价分类学习的电网暂态电压稳定评估方法 |
CN105931224A (zh) * | 2016-04-14 | 2016-09-07 | 浙江大学 | 基于随机森林算法的肝脏平扫ct图像病变识别方法 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107782442A (zh) * | 2017-10-24 | 2018-03-09 | 华北电力大学(保定) | 基于大数据和随机森林的变压器多特征参量选择方法 |
CN108171367A (zh) * | 2017-12-19 | 2018-06-15 | 天津市市政工程设计研究院 | 一种公交车服务水平可靠性预测方法 |
CN109117956A (zh) * | 2018-07-05 | 2019-01-01 | 浙江大学 | 一种最佳特征子集的确定方法 |
CN109117956B (zh) * | 2018-07-05 | 2021-08-24 | 浙江大学 | 一种最佳特征子集的确定方法 |
CN109033702A (zh) * | 2018-08-23 | 2018-12-18 | 国网内蒙古东部电力有限公司电力科学研究院 | 一种基于卷积神经网络cnn的电力系统暂态电压稳定评估方法 |
CN109726766A (zh) * | 2019-01-04 | 2019-05-07 | 三峡大学 | 一种基于集成决策树的电力系统在线动态安全评估方法 |
CN110363403A (zh) * | 2019-06-27 | 2019-10-22 | 中国铁道科学研究院集团有限公司 | 铁路钢轨损伤预测方法及装置 |
CN110458323A (zh) * | 2019-06-27 | 2019-11-15 | 广东工业大学 | 一种基于快速序列浮动特征选择的短期住宅负荷预测方法 |
CN110516710A (zh) * | 2019-07-25 | 2019-11-29 | 湖南星汉数智科技有限公司 | 网页分类方法、装置、计算机装置及计算机可读存储介质 |
CN110417011A (zh) * | 2019-07-31 | 2019-11-05 | 三峡大学 | 一种基于互信息与迭代随机森林的在线动态安全评估方法 |
CN110417011B (zh) * | 2019-07-31 | 2022-11-08 | 三峡大学 | 一种基于互信息与迭代随机森林的在线动态安全评估方法 |
CN110718910A (zh) * | 2019-10-29 | 2020-01-21 | 国网四川省电力公司经济技术研究院 | 贝叶斯优化LightGBM的暂态稳定评估方法 |
CN111060813A (zh) * | 2019-12-09 | 2020-04-24 | 国网北京市电力公司 | 高压断路器操作机构的故障诊断方法及装置、电子设备 |
CN112674779A (zh) * | 2020-12-25 | 2021-04-20 | 西华大学 | 一种基于ecg信号的睡眠自动分期方法 |
CN112836735A (zh) * | 2021-01-27 | 2021-05-25 | 中山大学 | 一种优化的随机森林处理不平衡数据集的方法 |
CN112836735B (zh) * | 2021-01-27 | 2023-09-01 | 中山大学 | 一种优化的随机森林处理不平衡数据集的方法 |
CN113240321A (zh) * | 2021-05-31 | 2021-08-10 | 中海石油(中国)有限公司 | 一种基于深度学习的油田类比评价方法及系统 |
CN114077874A (zh) * | 2022-01-17 | 2022-02-22 | 广东工业大学 | 基于分段采样的段域神经网络回归方法、系统及存储介质 |
CN116824171A (zh) * | 2023-06-28 | 2023-09-29 | 广东省新黄埔中医药联合创新研究院 | 中医高光谱舌象图像波段的选择方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106897821B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897821A (zh) | 一种暂态评估特征选择方法及装置 | |
CN108551167B (zh) | 一种基于XGBoost算法的电力系统暂态稳定判别方法 | |
Park et al. | Extension of the VIKOR method for group decision making with interval-valued intuitionistic fuzzy information | |
CN110542819B (zh) | 一种基于半监督dbnc的变压器故障类型诊断方法 | |
CN105184316A (zh) | 一种基于特征权学习的支持向量机电网业务分类方法 | |
CN106228183A (zh) | 一种半监督学习分类方法与装置 | |
CN106548230A (zh) | 基于改进粒子群优化神经网络的变压器故障诊断方法 | |
CN107797931A (zh) | 一种基于二次评价的软件质量评价方法及系统 | |
CN102750286B (zh) | 一种处理缺失数据的新型决策树分类器方法 | |
CN110428005B (zh) | 一种基于伞式算法的电力系统动态安全误分类约束方法 | |
CN103957116B (zh) | 一种云故障数据的决策方法及系统 | |
CN103886030B (zh) | 基于代价敏感决策树的信息物理融合系统数据分类方法 | |
CN109390935B (zh) | 一种用于电力系统暂态稳定预测的样本生成方法 | |
CN107391385A (zh) | 一种软件测试用例生成技术的构建方法 | |
CN106597154B (zh) | 基于dag-svm的变压器故障诊断提升方法 | |
CN112017070A (zh) | 一种基于数据增强评估电力系统暂态稳定的方法及系统 | |
CN111652478B (zh) | 基于伞式算法的电力系统电压稳定评估误分类约束方法 | |
CN113935237A (zh) | 一种基于胶囊网络的输电线路故障类型判别方法及系统 | |
Khalil et al. | Finding backdoors to integer programs: A monte carlo tree search framework | |
CN112069723A (zh) | 一种用于评估电力系统暂态稳定的方法及系统 | |
CN105868900A (zh) | 基于支持向量机的企业预合作伙伴分类方法 | |
Bader-El-Den | Self-adaptive heterogeneous random forest | |
CN105335763A (zh) | 一种基于改进型极速学习机的织物疵点分类方法 | |
CN105590167A (zh) | 电场多元运行数据分析方法及装置 | |
Hapsari et al. | Fractional gradient descent optimizer for linear classifier support vector machine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |