CN113468796A

CN113468796A - 一种基于改进随机森林算法的电压缺失数据辨识方法

Info

Publication number: CN113468796A
Application number: CN202110397003.3A
Authority: CN
Inventors: 李绍坚; 韦明超; 罗淑芳; 莫江婷; 甘静; 夏斌; 王益成; 周觅路; 韦社敏; 鲁林军; 陈柏昌; 黄伟; 陶海峰
Original assignee: Nanning Power Supply Bureau of Guangxi Power Grid Co Ltd
Current assignee: Nanning Power Supply Bureau of Guangxi Power Grid Co Ltd
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-10-01

Abstract

本发明公开了一种基于改进随机森林算法的电压缺失数据辨识方法，其中方法步骤包括：获取电网历史数据，选择缺失数据所有对应的关联属性，进行不同的属性划分；通过属性综合加权计算得到学习样本集合；对学习样本进行重复抽样，得到若干个相似样本集合；将所述相似样本集合作为输入，训练随机森林回归模型；提高随机森林回归预测精度；将所有决策树的最终预测均值作为填补结果，评估填补结果，填补结果在容忍范围则填补完成。通过本发明提高对缺失数据的辨识精度，从而提高了电网缺失值的填补精度。

Description

一种基于改进随机森林算法的电压缺失数据辨识方法

技术领域

本发明电力系统数据融合中常出现的电压值缺失问题的技术领域，尤其涉及一种基于改进随机森林算法的电压缺失数据辨识方法。

背景技术

随着电网的高速发展，各类系统对数据的需求越来越依赖，然而在数据采集和传输的过程中，常因通道量测和人为等因素，不可避免导致部分数据的丢失或异常。缺失或异常的数据对系统的运行以及进一步的数据分析都会造成影响，导致输出结果的异常。

尽管目前的研究对缺失数据的填补都取得了较好的效果，但是却较少对缺失值属性的关联属性进行研究和分析，缺失值的关联属性对填补结果有较大影响，基于属性综合加权的改进随机森林算法，对缺失数据进行辨识，提高缺失数据的辨识精度，提高电网缺失值的填补精度。

发明内容

为了克服现有技术的不足，本发明提供了一种基于改进随机森林算法的电压缺失数据辨识方法，实现对缺失数据进行了辨识，提高缺失数据的辨识精度，提高电网缺失值的填补精度。

为了实现上述发明目的，本发明提供了一种基于改进随机森林算法的电压缺失数据辨识方法，包括以下步骤：

S1：获取电网历史数据，选择缺失数据所有对应的关联属性，进行不同的属性划分；

S2：通过属性综合加权计算得到学习样本集合；

S3：对学习样本进行重复抽样，得到若干个相似样本集合；

S4：将所述相似样本集合作为输入，训练随机森林回归模型；

S5：通过减少决策树间的关联性和提高决策树的精度，提高随机森林回归预测精度；

S6：将所有决策树的最终预测均值作为填补结果，评估填补结果，填补结果在容忍范围则填补完成。

对所述关联属性进行各属性间的互相关系数计算，互相关系数大于给定阀值的属性存入互相关集合HG；

所述关联属性的各属性间的互相关系数计算公式如下，

当皮尔逊系系数用于总体时，如式(1)所示：

X,Y为两个不同属性随机变量，σ_X,σ_Y分别是X,Y的标准差，cov(X,Y)为协方差，如式(2)所示：

n表示样本的数量。

当皮尔逊系系数用于样本时，如式(3)所示：

x_i,y_i为变量X,Y对应i的观测点值，

分别为对应X,Y的样本均值；

通过皮尔逊系数计算各属性间的互相关系数，选择互相关系数大于给定阀值的属性存入互相关集合HG。

将所述互相关集合HG进行属性误差期望计算，属性误差期望大于强相关阀值，存入强相关属性集合QX；

所述互相关集合HG的属性误差期望计算公式如下，

Cov(X_k,Y_k)为X_k,Y_k的协方差；Var[X_k]为X_k的方差；Var[Y_k]为Y_k的方差；

若EXPError(X_k,Y_k)＞β(β为强相关阀值)，则为强相关属性，存入到强相关属性集合QX中。

所述强相关属性集合QX中的各属性采用熵权法确立其属性间的权重，得到权重向量，据强相关系数得到的属性综合加权值SX按照从大到小排序，设置选择阀值，选择大于选择阀值的样本作为学习样本集合。

所述强相关属性集合QX中的各属性采用熵权法确立其属性间的权重，得到权重向量如下：

W＝[w₁,w₂,...,w_m] (5)

m为强关联属性的个数。

据强相关系数得到的属性综合加权值SX：

SX＝W₁S₁+W₂S₁+...+W_mS_m (6)

根据各历史断面数据的属性综合加权结果按照从大到小排序，设置选择阈值，选择阀值较大的样本作为学习样本集合。

所述进行不同的属性划分完成整棵决策树的生长，基于基尼指数(Gini indexGI)通过判断终结点上所有划分，GI的公式为：

式中，P_j为j类元素出现的频率，U表示数据集，m表示类别个数。

对于不同属性GI要求对其进行划分，对于任意属性T的划分都可以将U其变为U₁和U₂，则通过划分后的属性T的样本集U的GI式5所示：

对任意属性，该划分的结果都能使得该属性生成最小的GI子集作为分裂子集。若属性T上的GI_U,T越小，则可以认为其在属性T上的划分效果越好。

所述提高随机森林回归预测精度，是通过减少决策树间的关联性和提高决策树的精度，步骤如下：

所有决策树{h(X,θ_k),k＝1,...,N_tree}集合构成了随机森林f,h(X,θ_k)表示未剪枝的决策树；θ_k是与第k个决策树独立同分布的随机向量；对于分类问题采用多数投票，对于回归问题采用算术平均值，得到随机森林的最终预测值。

通过边缘函数Q(X,Y)得出分类正确性的置信度，公式如下：

式中X：输入向量，最大包含J种不同类别；Y：输出的正确的分类类别； j：表示J种类别中的一种；I:指示函数；a_k：平均函数k＝1,...,n；

由式(6)可以看出，边缘函数越大，分类正确性的置信度就越高，因此可以定义随机森林回归的泛化误差如式(7)所示：

E^*＝S_X,Y(Q(X,Y)＜0) (7)

式中S_X,Y为输入向量X的分类错误率函数。对式(7)采用大数定律可得如下定理：

对于所有序列θ_k，若树的个数不断增加时，E^*几乎收敛于：

式中S_θ为集合θ的分类错误率，由定理可以看出随机森林回归的泛化会收敛于一个上界，而树的增加并不会对预测结果造成过拟合。

随机森林回归泛化误差上界，如式(9)所示：

式中η：树的平均相关系数，ζ：树的平均强度。

随着η的减小和ζ的增大，随机森林的泛化误差上界将会进一步减少，更加有利于误差的控制。

对学习样本集合进行重复抽样，得到若干个相似样本集合。

将所述相似样本集合作为输入，训练随机森林回归模型。

对任意决策树从初始集合中抽取大小相同的子集进行训练，生成K棵决策树，训练随机森林。

通过减少决策树间的关联性和提高决策树的精度，提高随机森林回归预测精度。

对训练完成的随机森林进行判别与分类，将所有树的预测均值作为填补结果，评估填补结果，填补结果在容忍范围则填补完成。

本发明的有益效果：基于属性综合加权的改进随机森林算法，对数据缺失值属性的关联属性进行研究和分析，筛选得到填补数据最相近的关联属性，提高缺失数据的辨识精度，从而提高电网缺失值的填补精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施中基于属性综合加权的改进随机森林算法示意图；

图2是本发明不同算法填补结果的均方根误差图；

图3是本发明不同算法填补结果的准确度图；

图4是本发明改进森林算法填补结果与真实值对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1是本发明实施中的基于属性综合加权的改进随机森林算法的流程示意图。

如图1所示，基于属性综合加权的改进随机森林算法包括：

步骤1：获取电网历史数据，从选择缺失数据所有对应的关联属性，进行不同的属性划分。

步骤2：所述进行不同的属性划分完成整棵决策树的生长，基于基尼指数(Giniindex GI)通过判断终结点上所有划分，GI的公式为：

对于不同属性GI要求对其进行划分，对于任意属性T的划分都可以将U其变为U₁和U₂，则通过划分后的属性T的样本集U的GI式2所示：

步骤3：通过皮尔逊系数计算各属性间的互相关系数，选择互相关系数大于为给定阀值的属性存入互相关集合HG；

所述关联属性的各属性间的互相关系数计算公式如下，

当皮尔逊系系数用于总体时，如式(3)所示：

其中，X,Y为两个不同属性的随机变量，σ_X,σ_Y分别是X,Y的标准差， cov(X,Y)为协方差，如式(4)所示：

其中，n表示样本的数量；

当皮尔逊系系数用于样本时，如式(5)所示：

其中，x_i,y_i为变量X,Y对应i的观测点值，

分别为对应X,Y的样本均值；

步骤4：进一步计算互相关集合HG集合中所有属性的误差期望 EXPError(X_k,Y_k)

步骤5：若EXPError(X_k,Y_k)＞β(β为强相关阀值)，则为强相关属性，保留到强相关属性集合QX中，若EXPError(X_k,Y_k)<β，则返回步骤4。

步骤6：对集合QX中的各属性采用熵权法确立其属性间的权重，得到权重向量如下：

W＝[w₁,w₂,...,w_m] (7)

m为强关联属性的个数。

步骤7：据强相关系数得到的属性综合加权值SX：

SX＝W₁S₁+W₂S₁+...+W_mS_m (8)

根据各历史断面数据的属性综合加权结果按从大到小排序，设置选择阈值，选择阀值较大的样本作为学习样本集合。

步骤8：进一步的，对所述学习样本集合进行重复抽样，得到若干个相似样本集合。

步骤9：将所述相似样本集合作为输入，训练随机森林回归模型。

步骤10：所述通过减少决策树间的关联性和提高决策树的精度，提高随机森林回归预测精度，步骤如下：

所有决策树{h(X,θ_k),k＝1,...,N_tree}集合构成了随机森林f,h(X,θ_k)表示未剪枝的决策树；θ_k是与第k个决策树独立同分布的随机向量；对于分类问题采用多数投票，对于回归问题采用算术平均值，得到随机森林的最终预测值；

通过边缘函数Q(X,Y)得出分类正确性的置信度，公式如下：

其中，X：输入向量，最大包含J种不同类别；Y：输出的正确的分类类别； j：表示J种类别中的一种；I:指示函数；a_k：平均函数k＝1,...,n；

由式(9)可以看出，边缘函数越大，分类正确性的置信度就越高，因此可以定义随机森林回归的泛化误差如式(8)所示：

E^*＝S_X,Y(Q(X,Y)＜0) (10)

其中，S_X,Y：输入向量X的分类错误率函数；

对于所有序列θ_k，若树的个数不断增加时，E^*几乎收敛于：

其中，S_θ：集合θ的分类错误率，由定理可以看出随机森林回归的泛化会收敛于一个上界，而树的增加并不会对预测结果造成过拟合；

随机森林回归泛化误差上界，如式(11)所示：

其中，η：树的平均相关系数，ζ：树的平均强度。

随着η的减小和ζ的增大，随机森林回归的泛化误差上界将会进一步减少，更加有利于误差的控制。因此，改善数据森林回归预测精度的方法为：1、减小树间的关联性；2、提高单棵决策树精度。

步骤11：将所有决策树的最终预测均值作为填补结果，评估填补结果，填补结果在容忍范围则填补完成。

以下是基于改进随机森林算法的电压缺失数据辨识方法的数据对比分析：

从电网大数据选取并构建若干个数据集，根据情况选定缺失属性，通过随机删除的方法构造缺失率分别为1％、3％、5％、10％、15％、20％、25％和30％的缺失数据集。在不同缺失率下分别应用本文改进随机森林算法、随机森林算法和原地算法三种算法进行实验，并对各算法得到的实验结果根据均方根误差和填补准确度进行分析比较。

以实际电网某电压缺失值作为填补目标，构造缺失率不同的缺失数据集，测试三种算法的性能。为充分表现各算法的性能，用随机生成缺失值的方式为每个缺失率构造10个缺失数据集，算法应用于各个数据集所得结果取平均值作为最终的实验结果，综合各实验结果进行分析对比。

从图2中可以看出本文提出的改进随机森林算法在所有缺失率下均方根误差均最小，填补效果最优，随缺失率的增加，均方根误差增大。

缺失值填补准确度随缺失率的增大而降低，如图3所示，当缺失率为1％时，三种算法的填补准确率都能达到60％以上，说明在缺失少量数据时各算法填补性能均较好。缺失率在3％-15％时本文提出的改进随机森林算法填补准确率明显优于随机森林算法，缺失率大于15％时随机森林算法与原地算法的填补准确率相差不大。在所有缺失情况下，改进随机森林算法填补效果都明显好于随机森林算法和原地算法。

从以上均方根误差与填补准确率分析可知，本文提出的改进随机森林算法的填补效果优于另两种算法，为更加直观展示该算法实际填补效果，构造缺失率为10％，且包括多段连续缺失的数据集，应用本文提出的改进随机算法对电网缺失值进行填补。图4为其中一段连续缺失27组数据的填补结果与真实值的对比结果，可看出填补值与真实值相关度较高，满足数据填补要求。

应当理解的是，以上所述实施例仅表达本发明的说明性，但并不能因此而理解对本发明范围限制，对于本领域的普通技术元而言，在不脱离本发明构思的前提下，还可做出若干改进，这些都属于本发明的保护范围。