CN113468796A - 一种基于改进随机森林算法的电压缺失数据辨识方法 - Google Patents

一种基于改进随机森林算法的电压缺失数据辨识方法 Download PDF

Info

Publication number
CN113468796A
CN113468796A CN202110397003.3A CN202110397003A CN113468796A CN 113468796 A CN113468796 A CN 113468796A CN 202110397003 A CN202110397003 A CN 202110397003A CN 113468796 A CN113468796 A CN 113468796A
Authority
CN
China
Prior art keywords
attribute
random forest
attributes
missing data
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110397003.3A
Other languages
English (en)
Inventor
李绍坚
韦明超
罗淑芳
莫江婷
甘静
夏斌
王益成
周觅路
韦社敏
鲁林军
陈柏昌
黄伟
陶海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanning Power Supply Bureau of Guangxi Power Grid Co Ltd
Original Assignee
Nanning Power Supply Bureau of Guangxi Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanning Power Supply Bureau of Guangxi Power Grid Co Ltd filed Critical Nanning Power Supply Bureau of Guangxi Power Grid Co Ltd
Priority to CN202110397003.3A priority Critical patent/CN113468796A/zh
Publication of CN113468796A publication Critical patent/CN113468796A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Geometry (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于改进随机森林算法的电压缺失数据辨识方法,其中方法步骤包括:获取电网历史数据,选择缺失数据所有对应的关联属性,进行不同的属性划分;通过属性综合加权计算得到学习样本集合;对学习样本进行重复抽样,得到若干个相似样本集合;将所述相似样本集合作为输入,训练随机森林回归模型;提高随机森林回归预测精度;将所有决策树的最终预测均值作为填补结果,评估填补结果,填补结果在容忍范围则填补完成。通过本发明提高对缺失数据的辨识精度,从而提高了电网缺失值的填补精度。

Description

一种基于改进随机森林算法的电压缺失数据辨识方法
技术领域
本发明电力系统数据融合中常出现的电压值缺失问题的技术领域,尤其涉 及一种基于改进随机森林算法的电压缺失数据辨识方法。
背景技术
随着电网的高速发展,各类系统对数据的需求越来越依赖,然而在数据采 集和传输的过程中,常因通道量测和人为等因素,不可避免导致部分数据的丢 失或异常。缺失或异常的数据对系统的运行以及进一步的数据分析都会造成影 响,导致输出结果的异常。
尽管目前的研究对缺失数据的填补都取得了较好的效果,但是却较少对缺 失值属性的关联属性进行研究和分析,缺失值的关联属性对填补结果有较大影 响,基于属性综合加权的改进随机森林算法,对缺失数据进行辨识,提高缺失 数据的辨识精度,提高电网缺失值的填补精度。
发明内容
为了克服现有技术的不足,本发明提供了一种基于改进随机森林算法的电 压缺失数据辨识方法,实现对缺失数据进行了辨识,提高缺失数据的辨识精度, 提高电网缺失值的填补精度。
为了实现上述发明目的,本发明提供了一种基于改进随机森林算法的电压 缺失数据辨识方法,包括以下步骤:
S1:获取电网历史数据,选择缺失数据所有对应的关联属性,进行不同的属 性划分;
S2:通过属性综合加权计算得到学习样本集合;
S3:对学习样本进行重复抽样,得到若干个相似样本集合;
S4:将所述相似样本集合作为输入,训练随机森林回归模型;
S5:通过减少决策树间的关联性和提高决策树的精度,提高随机森林回归预 测精度;
S6:将所有决策树的最终预测均值作为填补结果,评估填补结果,填补结果 在容忍范围则填补完成。
对所述关联属性进行各属性间的互相关系数计算,互相关系数大于给定阀值 的属性存入互相关集合HG;
所述关联属性的各属性间的互相关系数计算公式如下,
当皮尔逊系系数用于总体时,如式(1)所示:
Figure BDA0003018929210000021
X,Y为两个不同属性随机变量,σXY分别是X,Y的标准差,cov(X,Y)为协 方差,如式(2)所示:
Figure BDA0003018929210000022
n表示样本的数量。
当皮尔逊系系数用于样本时,如式(3)所示:
Figure BDA0003018929210000023
xi,yi为变量X,Y对应i的观测点值,
Figure BDA0003018929210000024
分别为对应X,Y的样本均值;
通过皮尔逊系数计算各属性间的互相关系数,选择互相关系数大于给定阀 值的属性存入互相关集合HG。
将所述互相关集合HG进行属性误差期望计算,属性误差期望大于强相关 阀值,存入强相关属性集合QX;
所述互相关集合HG的属性误差期望计算公式如下,
Figure BDA0003018929210000031
Cov(Xk,Yk)为Xk,Yk的协方差;Var[Xk]为Xk的方差;Var[Yk]为Yk的方差;
若EXPError(Xk,Yk)>β(β为强相关阀值),则为强相关属性,存入到强相关 属性集合QX中。
所述强相关属性集合QX中的各属性采用熵权法确立其属性间的权重,得 到权重向量,据强相关系数得到的属性综合加权值SX按照从大到小排序,设置 选择阀值,选择大于选择阀值的样本作为学习样本集合。
所述强相关属性集合QX中的各属性采用熵权法确立其属性间的权重,得到 权重向量如下:
W=[w1,w2,...,wm] (5)
m为强关联属性的个数。
据强相关系数得到的属性综合加权值SX:
SX=W1S1+W2S1+...+WmSm (6)
根据各历史断面数据的属性综合加权结果按照从大到小排序,设置选择阈 值,选择阀值较大的样本作为学习样本集合。
所述进行不同的属性划分完成整棵决策树的生长,基于基尼指数(Gini indexGI)通过判断终结点上所有划分,GI的公式为:
Figure BDA0003018929210000032
式中,Pj为j类元素出现的频率,U表示数据集,m表示类别个数。
对于不同属性GI要求对其进行划分,对于任意属性T的划分都可以将U其变 为U1和U2,则通过划分后的属性T的样本集U的GI式5所示:
Figure BDA0003018929210000041
对任意属性,该划分的结果都能使得该属性生成最小的GI子集作为分裂子 集。若属性T上的GIU,T越小,则可以认为其在属性T上的划分效果越好。
所述提高随机森林回归预测精度,是通过减少决策树间的关联性和提高决 策树的精度,步骤如下:
所有决策树{h(X,θk),k=1,...,Ntree}集合构成了随机森林f,h(X,θk)表示未 剪枝的决策树;θk是与第k个决策树独立同分布的随机向量;对于分类问题采用 多数投票,对于回归问题采用算术平均值,得到随机森林的最终预测值。
通过边缘函数Q(X,Y)得出分类正确性的置信度,公式如下:
Figure BDA0003018929210000042
式中X:输入向量,最大包含J种不同类别;Y:输出的正确的分类类别; j:表示J种类别中的一种;I:指示函数;ak:平均函数k=1,...,n;
由式(6)可以看出,边缘函数越大,分类正确性的置信度就越高,因此可 以定义随机森林回归的泛化误差如式(7)所示:
E*=SX,Y(Q(X,Y)<0) (7)
式中SX,Y为输入向量X的分类错误率函数。对式(7)采用大数定律可得如 下定理:
对于所有序列θk,若树的个数不断增加时,E*几乎收敛于:
Figure BDA0003018929210000043
式中Sθ为集合θ的分类错误率,由定理可以看出随机森林回归的泛化会收 敛于一个上界,而树的增加并不会对预测结果造成过拟合。
随机森林回归泛化误差上界,如式(9)所示:
Figure BDA0003018929210000051
式中η:树的平均相关系数,ζ:树的平均强度。
随着η的减小和ζ的增大,随机森林的泛化误差上界将会进一步减少,更加 有利于误差的控制。
对学习样本集合进行重复抽样,得到若干个相似样本集合。
将所述相似样本集合作为输入,训练随机森林回归模型。
对任意决策树从初始集合中抽取大小相同的子集进行训练,生成K棵决策 树,训练随机森林。
通过减少决策树间的关联性和提高决策树的精度,提高随机森林回归预测 精度。
对训练完成的随机森林进行判别与分类,将所有树的预测均值作为填补结 果,评估填补结果,填补结果在容忍范围则填补完成。
本发明的有益效果:基于属性综合加权的改进随机森林算法,对数据缺失 值属性的关联属性进行研究和分析,筛选得到填补数据最相近的关联属性,提 高缺失数据的辨识精度,从而提高电网缺失值的填补精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施中基于属性综合加权的改进随机森林算法示意图;
图2是本发明不同算法填补结果的均方根误差图;
图3是本发明不同算法填补结果的准确度图;
图4是本发明改进森林算法填补结果与真实值对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,图1是本发明实施中的基于属性综合加权的改进随机森林算法 的流程示意图。
如图1所示,基于属性综合加权的改进随机森林算法包括:
步骤1:获取电网历史数据,从选择缺失数据所有对应的关联属性,进行不 同的属性划分。
步骤2:所述进行不同的属性划分完成整棵决策树的生长,基于基尼指数(Giniindex GI)通过判断终结点上所有划分,GI的公式为:
Figure BDA0003018929210000061
式中,Pj为j类元素出现的频率,U表示数据集,m表示类别个数。
对于不同属性GI要求对其进行划分,对于任意属性T的划分都可以将U其变 为U1和U2,则通过划分后的属性T的样本集U的GI式2所示:
Figure BDA0003018929210000062
对任意属性,该划分的结果都能使得该属性生成最小的GI子集作为分裂子 集。若属性T上的GIU,T越小,则可以认为其在属性T上的划分效果越好。
步骤3:通过皮尔逊系数计算各属性间的互相关系数,选择互相关系数大于 为给定阀值的属性存入互相关集合HG;
所述关联属性的各属性间的互相关系数计算公式如下,
当皮尔逊系系数用于总体时,如式(3)所示:
Figure BDA0003018929210000071
其中,X,Y为两个不同属性的随机变量,σXY分别是X,Y的标准差, cov(X,Y)为协方差,如式(4)所示:
Figure BDA0003018929210000072
其中,n表示样本的数量;
当皮尔逊系系数用于样本时,如式(5)所示:
Figure BDA0003018929210000073
其中,xi,yi为变量X,Y对应i的观测点值,
Figure BDA0003018929210000074
分别为对应X,Y的样本均值;
通过皮尔逊系数计算各属性间的互相关系数,选择互相关系数大于给定阀 值的属性存入互相关集合HG。
步骤4:进一步计算互相关集合HG集合中所有属性的误差期望 EXPError(Xk,Yk)
Figure BDA0003018929210000075
Cov(Xk,Yk)为Xk,Yk的协方差;Var[Xk]为Xk的方差;Var[Yk]为Yk的方差;
步骤5:若EXPError(Xk,Yk)>β(β为强相关阀值),则为强相关属性,保 留到强相关属性集合QX中,若EXPError(Xk,Yk)<β,则返回步骤4。
步骤6:对集合QX中的各属性采用熵权法确立其属性间的权重,得到权重 向量如下:
W=[w1,w2,...,wm] (7)
m为强关联属性的个数。
步骤7:据强相关系数得到的属性综合加权值SX:
SX=W1S1+W2S1+...+WmSm (8)
根据各历史断面数据的属性综合加权结果按从大到小排序,设置选择阈值, 选择阀值较大的样本作为学习样本集合。
步骤8:进一步的,对所述学习样本集合进行重复抽样,得到若干个相似样 本集合。
步骤9:将所述相似样本集合作为输入,训练随机森林回归模型。
步骤10:所述通过减少决策树间的关联性和提高决策树的精度,提高随机 森林回归预测精度,步骤如下:
所有决策树{h(X,θk),k=1,...,Ntree}集合构成了随机森林f,h(X,θk)表示未 剪枝的决策树;θk是与第k个决策树独立同分布的随机向量;对于分类问题采用 多数投票,对于回归问题采用算术平均值,得到随机森林的最终预测值;
通过边缘函数Q(X,Y)得出分类正确性的置信度,公式如下:
Figure BDA0003018929210000081
其中,X:输入向量,最大包含J种不同类别;Y:输出的正确的分类类别; j:表示J种类别中的一种;I:指示函数;ak:平均函数k=1,...,n;
由式(9)可以看出,边缘函数越大,分类正确性的置信度就越高,因此可 以定义随机森林回归的泛化误差如式(8)所示:
E*=SX,Y(Q(X,Y)<0) (10)
其中,SX,Y:输入向量X的分类错误率函数;
对于所有序列θk,若树的个数不断增加时,E*几乎收敛于:
Figure BDA0003018929210000091
其中,Sθ:集合θ的分类错误率,由定理可以看出随机森林回归的泛化会 收敛于一个上界,而树的增加并不会对预测结果造成过拟合;
随机森林回归泛化误差上界,如式(11)所示:
Figure BDA0003018929210000092
其中,η:树的平均相关系数,ζ:树的平均强度。
随着η的减小和ζ的增大,随机森林回归的泛化误差上界将会进一步减少, 更加有利于误差的控制。因此,改善数据森林回归预测精度的方法为:1、减小 树间的关联性;2、提高单棵决策树精度。
步骤11:将所有决策树的最终预测均值作为填补结果,评估填补结果,填 补结果在容忍范围则填补完成。
以下是基于改进随机森林算法的电压缺失数据辨识方法的数据对比分析:
从电网大数据选取并构建若干个数据集,根据情况选定缺失属性,通过随 机删除的方法构造缺失率分别为1%、3%、5%、10%、15%、20%、25%和30% 的缺失数据集。在不同缺失率下分别应用本文改进随机森林算法、随机森林算 法和原地算法三种算法进行实验,并对各算法得到的实验结果根据均方根误差 和填补准确度进行分析比较。
以实际电网某电压缺失值作为填补目标,构造缺失率不同的缺失数据集, 测试三种算法的性能。为充分表现各算法的性能,用随机生成缺失值的方式为 每个缺失率构造10个缺失数据集,算法应用于各个数据集所得结果取平均值作 为最终的实验结果,综合各实验结果进行分析对比。
从图2中可以看出本文提出的改进随机森林算法在所有缺失率下均方根误 差均最小,填补效果最优,随缺失率的增加,均方根误差增大。
缺失值填补准确度随缺失率的增大而降低,如图3所示,当缺失率为1%时, 三种算法的填补准确率都能达到60%以上,说明在缺失少量数据时各算法填补 性能均较好。缺失率在3%-15%时本文提出的改进随机森林算法填补准确率明显 优于随机森林算法,缺失率大于15%时随机森林算法与原地算法的填补准确 率相差不大。在所有缺失情况下,改进随机森林算法填补效果都明显好于随机 森林算法和原地算法。
从以上均方根误差与填补准确率分析可知,本文提出的改进随机森林算法 的填补效果优于另两种算法,为更加直观展示该算法实际填补效果,构造缺失 率为10%,且包括多段连续缺失的数据集,应用本文提出的改进随机算法对电 网缺失值进行填补。图4为其中一段连续缺失27组数据的填补结果与真实值的 对比结果,可看出填补值与真实值相关度较高,满足数据填补要求。
应当理解的是,以上所述实施例仅表达本发明的说明性,但并不能因此而理 解对本发明范围限制,对于本领域的普通技术元而言,在不脱离本发明构思的 前提下,还可做出若干改进,这些都属于本发明的保护范围。

Claims (7)

1.一种基于改进随机森林算法的电压缺失数据辨识方法,其特征在于,所述方法步骤包括:
S1:获取电网历史数据,选择缺失数据所有对应的关联属性,进行不同的属性划分;
S2:通过属性综合加权计算得到学习样本集合;
S3:对学习样本进行重复抽样,得到若干个相似样本集合;
S4:将所述相似样本集合作为输入,训练随机森林回归模型;
S5:通过减少决策树间的关联性和提高决策树的精度,提高随机森林回归预测精度;
S6:将所有决策树的最终预测均值作为填补结果,评估填补结果,填补结果在容忍范围则填补完成。
2.根据权利要求1所述的基于改进随机森林算法的电压缺失数据辨识方法,其特征在于,所述属性综合加权计算包括以下步骤:
S21:对所述关联属性进行各属性间的互相关系数计算,互相关系数大于给定阀值的属性存入互相关集合HG;
S22:将所述互相关集合HG进行属性误差期望计算,属性误差期望大于强相关阀值,存入强相关属性集合QX;
S23:所述强相关属性集合QX中的各属性采用熵权法确立其属性间的权重,得到权重向量,据强相关系数得到的属性综合加权值SX按照从大到小排序,设置选择阀值,选择大于选择阀值的样本作为学习样本集合。
3.根据权利要求2所述的基于改进随机森林算法的电压缺失数据辨识方法,其特征在于,所述关联属性的各属性间的互相关系数计算公式如下,
当皮尔逊系系数用于总体时,如式(1)所示:
Figure FDA0003018929200000021
其中,X,Y为两个不同属性的随机变量,σXY分别是X,Y的标准差,cov(X,Y)为协方差,如式(2)所示:
Figure FDA0003018929200000022
其中,n表示样本的数量;
当皮尔逊系系数用于样本时,如式(3)所示:
Figure FDA0003018929200000023
其中,xi,yi为变量X,Y对应i的观测点值,
Figure FDA0003018929200000024
分别为对应X,Y的样本均值;
通过皮尔逊系数计算各属性间的互相关系数,选择互相关系数大于给定阀值的属性存入互相关集合HG。
4.根据权利要求2所述的基于改进随机森林算法的电压缺失数据辨识方法,其特征在于,所述互相关集合HG的属性误差期望计算公式如下,
Figure FDA0003018929200000025
其中,Cov(Xk,Yk)为Xk,Yk的协方差;Var[Xk]为Xk的方差;Var[Yk]为Yk的方差;
若EXPError(Xk,Yk)>β(β为强相关阀值),则为强相关属性,存入到强相关属性集合QX中。
5.根据权利要求2所述的基于改进随机森林算法的电压缺失数据辨识方法,其特征在于,所述强相关属性集合QX中的各属性采用熵权法确立其属性间的权重,得到权重向量如下:
W=[w1,w2,...,wm] (5)
其中,m:强关联属性的个数;
据强相关系数得到的属性综合加权值SX:
SX=W1S1+W2S1+...+WmSm (6)
根据各历史断面数据的属性综合加权结果按照从大到小排序,设置选择阈值,选择阀值较大的样本作为学习样本集合。
6.根据权利要求1所述的基于改进随机森林算法的电压缺失数据辨识方法,其特征在于,所述进行不同的属性划分是基于基尼指数通过判断终结点上所有划分,GI的公式为:
Figure FDA0003018929200000031
其中,Pj为j类元素出现的频率,U表示数据集,m表示类别个数;
对于不同属性GI要求对其进行划分,对于任意属性T的划分都可以将U其变为U1和U2,则通过划分后的属性T的样本集U的GI式5所示:
Figure FDA0003018929200000032
对任意属性,该划分的结果都能使得该属性生成最小的GI子集作为分裂子集。
7.根据权利要求1所述一种基于改进随机森林算法的电压缺失数据辨识方法,其特征在于,所述通过减少决策树间的关联性和提高决策树的精度,提高随机森林回归预测精度,具体步骤如下:
步骤S51:所有决策树{h(X,θk),k=1,...,Ntree}集合构成了随机森林f,h(X,θk)表示未剪枝的决策树;θk是与第k个决策树独立同分布的随机向量;对于分类问题采用多数投票,对于回归问题采用算术平均值,得到随机森林的最终预测值;
步骤S52:通过边缘函数Q(X,Y)得出分类正确性的置信度,公式如下:
Figure FDA0003018929200000041
其中,X:输入向量,最大包含J种不同类别;Y:输出的正确的分类类别;j:表示J种类别中的一种;I:指示函数;ak:平均函数k=1,...,n;
步骤S53:由式(6)可以看出,边缘函数越大,分类正确性的置信度就越高,因此可以定义随机森林回归的泛化误差如式(7)所示:
E*=SX,Y(Q(X,Y)<0) (7)
其中,SX,Y:输入向量X的分类错误率函数;
步骤S54:对于所有序列θk,若树的个数不断增加时,E*几乎收敛于:
Figure FDA0003018929200000042
其中,Sθ:集合θ的分类错误率,由定理可以看出随机森林回归的泛化会收敛于一个上界,而树的增加并不会对预测结果造成过拟合;
步骤S35:随机森林回归泛化误差上界,如式(9)所示:
Figure FDA0003018929200000043
其中,η:树的平均相关系数,ζ:树的平均强度。
CN202110397003.3A 2021-04-13 2021-04-13 一种基于改进随机森林算法的电压缺失数据辨识方法 Pending CN113468796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110397003.3A CN113468796A (zh) 2021-04-13 2021-04-13 一种基于改进随机森林算法的电压缺失数据辨识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110397003.3A CN113468796A (zh) 2021-04-13 2021-04-13 一种基于改进随机森林算法的电压缺失数据辨识方法

Publications (1)

Publication Number Publication Date
CN113468796A true CN113468796A (zh) 2021-10-01

Family

ID=77868459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110397003.3A Pending CN113468796A (zh) 2021-04-13 2021-04-13 一种基于改进随机森林算法的电压缺失数据辨识方法

Country Status (1)

Country Link
CN (1) CN113468796A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114189313A (zh) * 2021-11-08 2022-03-15 广东电网有限责任公司广州供电局 一种电表数据重构方法及装置
CN114861538A (zh) * 2022-05-07 2022-08-05 中核四川环保工程有限责任公司 基于随机森林算法的后处理厂退役辐射场估算方法及系统
CN117370744A (zh) * 2023-12-07 2024-01-09 国网天津市电力公司营销服务中心 一种电力用户用电异常数据动态清洗方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563077A (zh) * 2020-05-12 2020-08-21 国网山东省电力公司泰安供电公司 一种电网电压数据缺失填补方法、系统、终端及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563077A (zh) * 2020-05-12 2020-08-21 国网山东省电力公司泰安供电公司 一种电网电压数据缺失填补方法、系统、终端及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴潇雨等: "基于灰色投影改进随机森林算法的电力系统短期负荷预测", 《电力系统自动化》, vol. 39, no. 12, 25 June 2015 (2015-06-25), pages 2 *
李绍坚等: "基于多维度相关性分析的电压缺失数据辨识方法研究", 《电气自动化》, vol. 43, no. 1, 30 January 2021 (2021-01-30), pages 63 - 66 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114189313A (zh) * 2021-11-08 2022-03-15 广东电网有限责任公司广州供电局 一种电表数据重构方法及装置
CN114189313B (zh) * 2021-11-08 2023-11-24 广东电网有限责任公司广州供电局 一种电表数据重构方法及装置
CN114861538A (zh) * 2022-05-07 2022-08-05 中核四川环保工程有限责任公司 基于随机森林算法的后处理厂退役辐射场估算方法及系统
CN114861538B (zh) * 2022-05-07 2024-05-07 中核四川环保工程有限责任公司 基于随机森林算法的后处理厂退役辐射场估算方法及系统
CN117370744A (zh) * 2023-12-07 2024-01-09 国网天津市电力公司营销服务中心 一种电力用户用电异常数据动态清洗方法及系统

Similar Documents

Publication Publication Date Title
CN109816221B (zh) 项目风险决策方法、装置、计算机设备和存储介质
CN113468796A (zh) 一种基于改进随机森林算法的电压缺失数据辨识方法
CN111382906B (zh) 一种电力负荷预测方法、系统、设备和计算机可读存储介质
CN109886464B (zh) 基于优化奇异值分解生成特征集的低信息损失短期风速预测方法
CN112052755A (zh) 基于多路注意力机制的语义卷积高光谱图像分类方法
CN108681742B (zh) 用于分析司机驾驶行为对车辆能耗敏感性的分析方法
CN111027629A (zh) 基于改进随机森林的配电网故障停电率预测方法及系统
CN113988357B (zh) 基于深度学习的高层建筑风致响应预测方法及装置
CN112180471B (zh) 天气预报方法、装置、设备及存储介质
CN112560967A (zh) 一种多源遥感图像分类方法、存储介质及计算设备
CN113889198A (zh) 一种基于油色谱时频域信息和残差注意力网络的变压器故障诊断方法及设备
CN116245019A (zh) 一种基于Bagging抽样及改进随机森林算法的负荷预测方法、系统、装置及存储介质
CN112580780A (zh) 模型训练的处理方法、装置、设备和存储介质
CN112184412A (zh) 一种信用评分卡模型的建模方法、装置、介质及电子设备
CN113449920A (zh) 一种风电功率预测方法、系统及计算机可读介质
CN112200208A (zh) 基于多维度特征融合的云工作流任务执行时间预测方法
CN112465054B (zh) 一种基于fcn的多变量时间序列数据分类方法
CN115392582A (zh) 基于增量模糊粗糙集属性约简的作物产量预测方法
CN113935413A (zh) 一种基于卷积神经网的配网录波文件波形识别方法
CN113487080B (zh) 一种基于风速分类的风速动态场景生成方法、系统及终端
CN118035923B (zh) 一种电网录波异常信号识别方法
CN116187206B (zh) 一种基于生成对抗网络的cod光谱数据迁移方法
CN117633456B (zh) 基于自适应焦点损失的海上风电天气事件辨识方法和装置
CN115526235A (zh) 海上平台负荷数据的聚类方法、装置、终端及存储介质
CN117497093A (zh) 多孔碳co2捕获量预测方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211001

RJ01 Rejection of invention patent application after publication