CN114626487A

CN114626487A - 基于随机森林分类算法的线变关系校核方法

Info

Publication number: CN114626487A
Application number: CN202210525860.1A
Authority: CN
Inventors: 康兵; 周俊; 许志浩; 丁贵立; 王宗耀; 刘传; 高永民
Original assignee: Nanchang Institute of Technology
Current assignee: Nanchang Institute of Technology
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-06-14
Anticipated expiration: 2042-05-16
Also published as: CN114626487B

Abstract

本发明公开了一种基于随机森林分类算法的线变关系校核方法，收集配电变压器历史某日的三相电压幅值，得到电压时间序列数据；对电压时间序列数据进行预处理并替换异常值；然后进行平滑化处理和标准化处理；之后对电压时间序列数据进行特征构造，生成特征矩阵；将生成的特征矩阵输入随机森林模型学习调参得到基于随机森林算法的线变关系校核模型；将待校核的线路配电变压器的电压数据通过预处理、特征构造生成特征矩阵，将特征矩阵输入训练好的基于随机森林算法的线变关系校核模型进行校核，输出最终的校核结果。本发明解决了10kV线路集群线变关系校核阈值动态变化难以确定的问题，可有效提升线变关系的自动化校核程度。

Description

基于随机森林分类算法的线变关系校核方法

技术领域

本申请涉及电力技术领域，具体地涉及一种基于随机森林分类算法的线变关系校核方法。

背景技术

线变关系是指配电网中10kV线路与10kV配电变压器的从属关系，由于配电网点多面广、运行方式频繁变化、台账信息维护滞后，导致配电网生产管理系统中线变关系经常出现与实际不符的情况。错误的线变关系会直接影响配电网日常生产与运行指标的正确性、供电服务的及时性与精准性、配电网抢修的安全性。

发明内容

为了利用配电变压器的电压量测值解决现场人工校核线变关系费时费力的现状，本发明提出一种基于随机森林分类算法的线变关系校核方法。

本发明通过下述技术方案来实现：一种基于随机森林分类算法的线变关系校核方法，包括以下步骤：

S1：收集带有线变关系标签的10kV线路配电变压器历史某日的三相电压幅值，得到电压时间序列数据；

S2：对电压时间序列数据进行预处理；

S3：对配电变压器的三相电压异常值采用异常时刻两端的电压均值予以替换；

S4：对配电变压器的三相电压幅值的进行平滑化处理；

S5：对配电变压器的三相电压幅值预处理；

S6：对预处理后的电压时间序列数据进行特征构造，生成特征矩阵；

S7：将步骤S6生成的特征矩阵输入随机森林模型学习调参得到基于随机森林算法的线变关系校核模型；

S8：将待校核的线路配电变压器的电压数据通过预处理、特征构造生成特征矩阵，将特征矩阵输入步骤S7训练好的基于随机森林算法的线变关系校核模型进行校核，输出最终的校核结果。

进一步优选，步骤S6的过程如下：

S61：提取配电变压器电压幅值的偏度指标x _sk、峰度指标x _ku、分桶熵指标x _be：

式中，μ为Z-Score标准化后的电压时间序列数据V’的均值，σ为Z-Score标准化后的电压时间序列数据V ^’的标准差，E为数学期望，maxbins为分桶个数，p _j为电压时间序列数据落在第j个桶的概率，len(V)为电压时间序列数据的长度；

S62：提取电压时间序列数据V大于平均值的最长连续子序列长度指标记为x _lam；提取配电变压器所属线路的配电变压器数量指标记为x _m；提取配电变压器所属线路下辖专变数量占配电变压器所属线路所有配电变压器的比例指标记为x _zb；

S63：提取配电变压器所属线路下辖配电变压器之间的电压相关性ρ _X，Y：

式中，cov(X,Y)是X和Y的协方差，σ _x、σ _y分别是X和Y的标准差。X和Y分别代表两组电压时间序列数据的电压幅值；

式中，配电变压器相关性矩阵P的主对角线为配电变压器与其自身的皮尔逊相关系数恒为1，其余位置分别是配变电压时间序列两两之间的皮尔逊相关系数关于主对角线对称，m为配电变压器所属线路下配电变压器的数量；接着取配电变压器相关性矩阵P中每列的平均值作为配电变压器对线路的相关系数ρ _trans=[ρ ₁,ρ ₂,ρ ₃,...,ρ _m]最后将配电变压器的相关性记为x_ρ；

S64：提取配电变压器所属线路下辖配变相关性均值记为对ρ _trans，取ρ _trans均值并记为x _ρl；

S65：提取配电变压器所属线路下辖配电变压器之间的电压滑动窗口相关性的均值，设置滑动窗口的起始位置、滑动窗口大小、滑动步长，计算滑动窗口的配电变压器之间的电压相关系数均值，记作x _ρw；

S66：将步骤S61-步骤S65的指标组成特征矩阵。

进一步优选，步骤S7中，基于Python环境的Pandas和Numpy库进行基于随机森林算法的线变关系校核模型训练。

进一步优选，步骤S7中，将特征矩阵的一部分数据划分为训练集，另一部分数据划分为测试集进行交叉验证，不断调整参数使得模型分类性能最优，最终确定基于随机森林算法的线变关系校核模型的各项参数。

进一步优选，步骤S7中，基于随机森林算法的线变关系校核模型的参数包括：决策树数量、决策树节点分裂方法、决策树最大深度、拆分决策树内部节点所需的最小样本数、决策树叶节点所需的最小样本数、决策树最佳分割时考虑的特征数量。

进一步优选，步骤S7中，决策树节点分裂方法采用信息熵算法或基尼系数算法。

进一步优选，步骤S2中，首先剔除三相电压幅值缺失占比超过设定比例的配电变压器；对于数据缺失占比小于等于设定比例的配电变压器使用三次多项式插值法进行缺失数据的填补，对于每一段[v _a,……v _b]含有缺失值的电压时间序列数据取其前后两个时刻的区间进行三次多项式的插值[v _a-2,v _a-1,v _a,……v _b,v _b+1,v _b+2] ；

式中a ₀,a ₁,a ₂,a ₃分别为三次多项式系数，y为三次多项式拟合后的电压值，v为拟合所需的电压值。v _a为a时刻的三相电压幅值，v _a-1为a-1时刻的三相电压幅值，v _a-2为a-2时刻的三相电压幅值，v _b为b时刻的三相电压幅值，v _b+1为b+1时刻的三相电压幅值，v _b+2为b+2时刻的三相电压幅值。

进一步优选，步骤S3具体过程为：

（1）配电变压器的电压时间序列数据表示为V=[v ₁,v ₂,v ₃,...,v ₉₆]；同时设置一个滑动窗口W遍历电压时间序列数据V，滑动窗口大小为n，滑动步长为1；滑动窗口内的电压时间序列数据表示为W=[v _i,v _i+1,v _i+2,...,v _i+n]，其中i为窗口左侧三相电压幅值数据的起始位置；

（2）将窗口后一位电压数据v _i+n+1与滑动窗口W的平均值W _mean做差得到一个时间序列S；

（3）计算时间序列S的第一四分位数Q ₁、第三四分位数Q ₃、四分位距IQR=Q ₃-Q ₁，设定正常阈值范围[Q ₁-3×IQR,Q ₃+3×IQR]，时间序列S中的值不在阈值范围内的点对应的电压时间序列数据则视为异常值；

（4）取该异常值左右各2个三相电压幅值的平均值进行填补。

进一步优选，步骤S4中，任意一相的电压时间序列数据表示为V=[v ₁,v ₂,v ₃,...,v ₉₆]，设置一个滑动窗口W遍历电压时间序列数据V，滑动步长为1；在t时刻滑动窗口W前后共2n+1个的数据为W=[v _t-n,...,v _t-1,v _t,v _t+1,...,v _t+n]，在t时刻的电压幅值v _t拟合的公式为：

式中，β ₀、β ₁、β ₂、β _k-1为对应的电压幅值k-1阶系数，x为拟合所需的电压幅值，k为阶数；

滑动窗口W的k-1阶多项式矩阵形式为：

式中ε为拟合残差项，n为窗口大小。

进一步优选，步骤S5中，使用Z-Score方法将电压时间序列数据V映射至均值为0，标准差为1的正态分布上：

式中，V _mean为电压时间序列数据V的均值，V _std为电压时间序列数据V的标准差，v _t ^’为t时刻电压幅值映射至正态分布区间的电压幅值，映射后得到Z-Score标准化后的电压时间序列数据V ^’。

本发明的优点是：本发明从数据分析的角度开展线变关系校核的工作，减少人工现场校核线变关系费时费力的现状。其他线变关系校核方法通常需要设置一个校核阈值，校核阈值的设置受到线路自身拓扑、负荷变化难以确定一个固定的阈值。本发明构建了基于随机森林算法的线变关系校核模型，相较于其他线变关系校核算法（支持向量机算法SVM、K最近邻算法KNN、朴素贝叶斯算法、自适应增强算法Adaboost），校核结果最佳。解决了10kV线路集群线变关系校核阈值动态变化难以确定的问题。本发明可有效提升线变关系的自动化校核程度，并且校核结果具有较高的准确率。

附图说明

图1为本发明的流程图。

图2为决策树数量F1评分曲线。

图3为二次学习决策树数量F1评分曲线。

图4为交叉验证信息熵F1评分曲线。

图5为交叉验证基尼系数F1评分曲线。

图6为决策树最大深度F1评分曲线。

图7为拆分决策树内部节点所需的最小样本数F1评分曲线。

图8为决策树叶节点所需的最小样本数 F1评分曲线。

图9为决策树最佳分割时考虑的特征数量F1评分曲线。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本实施例提供了一种基于随机森林分类算法的线变关系校核方法，具体步骤包括：

S1：收集带有线变关系标签的10kV线路配电变压器历史某日的三相电压幅值，得到电压时间序列数据。电压时间序列数据为单日15：00分钟间隔共96个点的三相电压幅值。如表1所示，电压时间序列数据[v₁,v₂,……,v₉₆]对应15分钟间隔每日共96个点的配电变压器三相电压幅值。

表1.变压器三相电压幅值

S2：对电压时间序列数据进行预处理。首先剔除三相电压幅值缺失占比超过30%的配电变压器。对于数据缺失占比小于等于30%的配电变压器使用三次多项式插值法进行缺失数据的填补，对于每一段[v _a,……v _b]含有缺失值的电压时间序列数据取其前后两个时刻的区间进行三次多项式的插值[v _a-2,v _a-1,v _a,……v _b,v _b+1,v _b+2] ；

S3：对配电变压器的三相电压异常值采用异常时刻两端的电压均值予以替换。

S4：对配电变压器的三相电压幅值的进行平滑化处理。

任意一相的电压时间序列数据表示为V=[v ₁,v ₂,v ₃,...,v ₉₆]，设置一个滑动窗口W遍历电压时间序列数据V，滑动步长为1。在t时刻滑动窗口W前后共2n+1个的数据为W=[v _t-n,...,v _t-1,v _t,v _t+1,...,v _t+n]，在t时刻的电压幅值v _t拟合的公式为：

式中，β ₀、β ₁、β ₂、β _k-1为对应的电压幅值k-1阶系数，x为拟合所需的电压幅值，k为阶数。

滑动窗口W的k-1阶多项式矩阵形式为：

式中ε为拟合残差项，n为窗口大小。

S5：对配电变压器的三相电压幅值预处理；

首先使用Z-Score方法将电压时间序列数据V映射至均值为0，标准差为1的正态分布上：

S6：对预处理后的电压时间序列数据进行特征构造，生成特征矩阵。

式中，μ为Z-Score标准化后的电压时间序列数据V’的均值，σ为Z-Score标准化后的电压时间序列数据V ^’的标准差，E为数学期望，maxbins为分桶个数，p _j为电压时间序列数据落在第j个桶的概率，len(V)为电压时间序列数据的长度。

S62：提取电压时间序列数据V大于平均值的最长连续子序列长度指标记为x _lam；提取配电变压器所属线路的配电变压器数量指标记为x _m；提取配电变压器所属线路下辖专变数量占配电变压器所属线路所有配电变压器的比例指标记为x _zb。

式中，cov(X,Y)是X和Y的协方差，σ _x、σ _y分别是X和Y的标准差。X和Y分别代表两组电压时间序列数据的电压幅值。

式中，配电变压器相关性矩阵P的主对角线为配电变压器与其自身的皮尔逊相关系数恒为1，其余位置分别是配变电压时间序列两两之间的皮尔逊相关系数关于主对角线对称，m为配电变压器所属线路下配电变压器的数量。接着取配电变压器相关性矩阵P中每列的平均值作为配电变压器对线路的相关系数ρ _trans=[ρ ₁,ρ ₂,ρ ₃,...,ρ _m]最后将配电变压器的相关性记为x_ρ 。

S64：提取配电变压器所属线路下辖配变相关性均值记为对ρ _trans，取ρ _trans均值并记为x _ρl 。

S65：提取配电变压器所属线路下辖配电变压器之间的电压滑动窗口相关性的均值，滑动窗口的起始位置设置在早上6:00至夜间22:00，滑动窗口大小设置为8即2个小时长度，滑动步长为1计算滑动窗口的配电变压器之间的电压相关系数均值，记作x _ρw 。

S66：将步骤S61-步骤S65的指标组成特征矩阵。

特征矩阵i为各指标数量。

S7：将步骤S6生成的特征矩阵输入随机森林模型学习调参得到基于随机森林算法的线变关系校核模型。基于Python环境的Pandas和Numpy库进行基于随机森林算法的线变关系校核模型训练。将特征矩阵的70%数据划分为训练集，30%数据划分为测试集进行交叉验证，交叉验证折数为10次，不断调整参数使得F1值最优，F1值为评价模型分类性能的指标，取值在[0~1]之间，越接近1则模型的分类性能越好。最终确定基于随机森林算法的线变关系校核模型的各项参数，包括：决策树数量N_e，通常越多越好，但模型训练时间也将变长；决策树节点分裂方法C，分为信息熵与基尼系数两种算法；决策树最大深度D_max，可防止模型过拟合；拆分决策树内部节点所需的最小样本数SS_min；决策树叶节点所需的最小样本数SL_min；决策树最佳分割时考虑的特征数量F_max。

本实施例的一个具体应用场景中，以电力公司用电信息采集系统中收集的534条10kV配电线路及其所挂接的26824个配变为例，采集单日15分钟间隔96点的三相电压幅值数据。实际情况中，含电压干扰装置的配变存在单相、两相、三相配置的情况，导致线变关系的误判。

步骤S1采集的电压时间序列数据经步骤S2、步骤S3、步骤S4、步骤S5处理得到的Z-Score标准化后的电压时间序列数据如表2所示。

表2.Z-Score标准化后的电压时间序列数据

按步骤S6将Z-Score标准化后的电压时间序列数据进行特征构造，生成的特征矩阵如表3所示。

表3.特征矩阵

将表3的特征矩阵输入基于随机森林算法的线变关系校核模型进行训练，各参数的F1学习曲线如图2所示。

从图2中可以看出，在决策树数量N_e取值为50左右时，基于随机森林算法的线变关系校核模型的F1评分最高，达到0.84。而后随着决策树数量N_e增加，基于随机森林算法的线变关系校核模型F1的评分呈现震荡且略有下降的趋势。由于决策树数量N_e的步长为10，容易遗漏步长内的最优F1评分，为了确定决策树数量N_e最佳取值，取决策树数量N_e为40-70，步长为1进行二次学习，交叉验证得到F1评分曲线，如图3所示。

从二次学习F1评分曲线可以看出，决策树数量N_e在取值45时，基于随机森林算法的线变关系校核模型的分类性能为最优达到0.8432。相比决策树数量N_e取值为50时仅提高了0.0032，调整该参数已无法继续提升基于随机森林算法的线变关系校核模型分类性能，因此选定决策树数量N_e最佳取值为45。

决策树分裂算法分为基于信息熵与基尼系数两种算法，因此设定在同样的基于随机森林算法的线变关系校核模型参数下进行20次的模型训练得到F1评分曲线如图4、图5所示。从图4、图5可以看出决策树分裂算法熵在基于基尼系数的分裂方式与基于信息熵的分裂方式区别不大，整体的F1评分都在0.84附近波动。决策树分裂算法选择为基尼系数。

决策树最大深度D_max一般需根据数据特征的多少来选取，当增加的决策树的最大深度时，决策树会捕获数据中更多的有用信息，但同时也会增加随机森林过拟合的风险。最大深度设置的过小时则会时决策树的灵活性减小，容易产生欠拟合的情况。对于本文的电压时序数据，设定决策树最大深度D_max的取值区间为[1~30]，步长为1进行学习得到F1评分曲线，如图6所示。

从图6中可以看出，在决策树最大深度D_max取值为21时，基于随机森林算法的线变关系校核模型的分类性能达到最优，F1为0.8824，而后随着树的深度增长F1值不变，F1值相较0.8432增长了0.0392，

为减小基于随机森林算法的线变关系校核模型的复杂度取得更小的泛化误差，需进一步学习并且选择合适的拆分决策树内部节点所需的最小样本数SS_min与决策树叶节点所需的最小样本数SL_min两个参数值，决策树叶节点所需的最小样本数学习中的参数取值为大于2的整数，因此把参数的取值区间设定为[2~30]，步长为1得到F1评分曲线。

从图7、图8中可以看出，拆分决策树内部节点所需的最小样本数SS_min 取值为12时，基于随机森林算法的线变关系校核模型F1评分达到最高水平为0.8947。从图7、图8中可以看出决策树叶节点所需的最小样本数SL_min取值为10时基于随机森林算法的线变关系校核模型F1评分达到最高水平为0.9186。

决策树最佳分割时考虑的特征数量F_max参数区间为[1~9]，步长为1。得到F1评分曲线，如图9所示。从图9中可以看出决策树最佳分割时考虑的特征数量F_max取值为5时，基于随机森林算法的线变关系校核模型F1值最优达到了0.9209。

通过上述学习曲线，最终得到基于随机森林算法的线变关系校核模型的最优参数取值: 决策树数量N_e=45；决策树节点分裂方法C为基尼系数；决策树最大深度D_max=21；拆分决策树内部节点所需的最小样本数SS_min=12；决策树叶节点所需的最小样本数SL_min=10；决策树最佳分割时考虑的特征数量F_max=5。

通过选取50条线路共2342台配变利用上述预处理与特征构造步骤得到特征矩阵输入进基于随机森林算法的线变关系校核模型校核，输出校核结果，如表4所示。

表4随机森林校核

供电公司现场核实结果如表5所示，结果表明本发明方法校核准确率达到90.3%，所需校核原始数据均来源供电公司的用电信息采集系统，无需增加其他投入成本，可为供电公司减少大量人力物力。

表5现场核实实例结果

以上所述是本发明的优选实施方式，应说明的是：以上实施例仅用以说明本发明而非限制，本发明也并不仅限于上述举例，一切不脱离本发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围中。

Claims

1.一种基于随机森林分类算法的线变关系校核方法，其特征是，包括以下步骤：

S2：对电压时间序列数据进行预处理；

S4：对配电变压器的三相电压幅值的进行平滑化处理；

S5：对配电变压器的三相电压幅值预处理；

2.根据权利要求1所述的一种基于随机森林分类算法的线变关系校核方法，其特征是，步骤S6的过程如下：

式中，cov(X,Y)是X和Y的协方差，σ _x、σ _y分别是X和Y的标准差；X和Y分别代表两组电压时间序列数据的电压幅值；

S66：将步骤S61-步骤S65的指标组成特征矩阵。

3.根据权利要求1所述的一种基于随机森林分类算法的线变关系校核方法，其特征是，步骤S7中，基于Python环境的Pandas和Numpy库进行基于随机森林算法的线变关系校核模型训练。

4.根据权利要求3所述的一种基于随机森林分类算法的线变关系校核方法，其特征是，步骤S7中，将特征矩阵的一部分数据划分为训练集，另一部分数据划分为测试集进行交叉验证，不断调整参数使得模型分类性能最优，最终确定基于随机森林算法的线变关系校核模型的各项参数。

5.根据权利要求4所述的一种基于随机森林分类算法的线变关系校核方法，其特征是，步骤S7中，基于随机森林算法的线变关系校核模型的参数包括：决策树数量、决策树节点分裂方法、决策树最大深度、拆分决策树内部节点所需的最小样本数、决策树叶节点所需的最小样本数、决策树最佳分割时考虑的特征数量。

6.根据权利要求5所述的一种基于随机森林分类算法的线变关系校核方法，其特征是，步骤S7中，决策树节点分裂方法采用信息熵算法或基尼系数算法。

7.根据权利要求1所述的一种基于随机森林分类算法的线变关系校核方法，其特征是，步骤S2中，首先剔除三相电压幅值缺失占比超过设定比例的配电变压器；对于数据缺失占比小于等于设定比例的配电变压器使用三次多项式插值法进行缺失数据的填补，对于每一段[v _a,……v _b]含有缺失值的电压时间序列数据取其前后两个时刻的区间进行三次多项式的插值[v _a-2,v _a-1,v _a,……v _b,v _b+1,v _b+2] ；

式中a ₀,a ₁,a ₂,a ₃分别为三次多项式系数，y为三次多项式拟合后的电压值，v为拟合所需的电压值，v _a为a时刻的三相电压幅值，v _a-1为a-1时刻的三相电压幅值，v _a-2为a-2时刻的三相电压幅值，v _b为b时刻的三相电压幅值，v _b+1为b+1时刻的三相电压幅值，v _b+2为b+2时刻的三相电压幅值。

8.根据权利要求1所述的一种基于随机森林分类算法的线变关系校核方法，其特征是，步骤S3具体过程为：

（4）取异常值左右各2个三相电压幅值的平均值进行填补。

9.根据权利要求1所述的一种基于随机森林分类算法的线变关系校核方法，其特征是，步骤S4中，任意一相的电压时间序列数据表示为V=[v ₁,v ₂,v ₃,...,v ₉₆]，设置一个滑动窗口W遍历电压时间序列数据V，滑动步长为1；在t时刻滑动窗口W前后共2n+1个的数据为W=[v _t-n,...,v _t-1,v _t,v _t+1,...,v _t+n]，在t时刻的电压幅值v _t拟合的公式为：

滑动窗口W的k-1阶多项式矩阵形式为：

式中ε为拟合残差项，n为窗口大小。

10.根据权利要求9所述的一种基于随机森林分类算法的线变关系校核方法，其特征是，步骤S5中，使用Z-Score方法将电压时间序列数据V映射至均值为0，标准差为1的正态分布上：