CN114626487A - 基于随机森林分类算法的线变关系校核方法 - Google Patents

基于随机森林分类算法的线变关系校核方法 Download PDF

Info

Publication number
CN114626487A
CN114626487A CN202210525860.1A CN202210525860A CN114626487A CN 114626487 A CN114626487 A CN 114626487A CN 202210525860 A CN202210525860 A CN 202210525860A CN 114626487 A CN114626487 A CN 114626487A
Authority
CN
China
Prior art keywords
voltage
line
series data
distribution transformer
random forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210525860.1A
Other languages
English (en)
Other versions
CN114626487B (zh
Inventor
康兵
周俊
许志浩
丁贵立
王宗耀
刘传
高永民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Institute of Technology
Original Assignee
Nanchang Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Institute of Technology filed Critical Nanchang Institute of Technology
Priority to CN202210525860.1A priority Critical patent/CN114626487B/zh
Publication of CN114626487A publication Critical patent/CN114626487A/zh
Application granted granted Critical
Publication of CN114626487B publication Critical patent/CN114626487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Mathematics (AREA)
  • Economics (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于随机森林分类算法的线变关系校核方法,收集配电变压器历史某日的三相电压幅值,得到电压时间序列数据;对电压时间序列数据进行预处理并替换异常值;然后进行平滑化处理和标准化处理;之后对电压时间序列数据进行特征构造,生成特征矩阵;将生成的特征矩阵输入随机森林模型学习调参得到基于随机森林算法的线变关系校核模型;将待校核的线路配电变压器的电压数据通过预处理、特征构造生成特征矩阵,将特征矩阵输入训练好的基于随机森林算法的线变关系校核模型进行校核,输出最终的校核结果。本发明解决了10kV线路集群线变关系校核阈值动态变化难以确定的问题,可有效提升线变关系的自动化校核程度。

Description

基于随机森林分类算法的线变关系校核方法
技术领域
本申请涉及电力技术领域,具体地涉及一种基于随机森林分类算法的线变关系校核方法。
背景技术
线变关系是指配电网中10kV线路与10kV配电变压器的从属关系,由于配电网点多面广、运行方式频繁变化、台账信息维护滞后,导致配电网生产管理系统中线变关系经常出现与实际不符的情况。错误的线变关系会直接影响配电网日常生产与运行指标的正确性、供电服务的及时性与精准性、配电网抢修的安全性。
发明内容
为了利用配电变压器的电压量测值解决现场人工校核线变关系费时费力的现状,本发明提出一种基于随机森林分类算法的线变关系校核方法。
本发明通过下述技术方案来实现:一种基于随机森林分类算法的线变关系校核方法,包括以下步骤:
S1:收集带有线变关系标签的10kV线路配电变压器历史某日的三相电压幅值,得到电压时间序列数据;
S2:对电压时间序列数据进行预处理;
S3:对配电变压器的三相电压异常值采用异常时刻两端的电压均值予以替换;
S4:对配电变压器的三相电压幅值的进行平滑化处理;
S5:对配电变压器的三相电压幅值预处理;
S6:对预处理后的电压时间序列数据进行特征构造,生成特征矩阵;
S7:将步骤S6生成的特征矩阵输入随机森林模型学习调参得到基于随机森林算法的线变关系校核模型;
S8:将待校核的线路配电变压器的电压数据通过预处理、特征构造生成特征矩阵,将特征矩阵输入步骤S7训练好的基于随机森林算法的线变关系校核模型进行校核,输出最终的校核结果。
进一步优选,步骤S6的过程如下:
S61:提取配电变压器电压幅值的偏度指标x sk 、峰度指标x ku 、分桶熵指标x be
Figure 586876DEST_PATH_IMAGE001
Figure 872364DEST_PATH_IMAGE002
Figure 874955DEST_PATH_IMAGE003
式中,μ为Z-Score标准化后的电压时间序列数据V’的均值,σ为Z-Score标准化后的电压时间序列数据V 的标准差,E为数学期望,maxbins为分桶个数,p j 为电压时间序列数据落在第j个桶的概率,len(V)为电压时间序列数据的长度;
S62:提取电压时间序列数据V大于平均值的最长连续子序列长度指标记为x lam ;提取配电变压器所属线路的配电变压器数量指标记为x m ;提取配电变压器所属线路下辖专变数量占配电变压器所属线路所有配电变压器的比例指标记为x zb
S63:提取配电变压器所属线路下辖配电变压器之间的电压相关性ρ X,Y
Figure 929499DEST_PATH_IMAGE004
式中,cov(X,Y)XY的协方差,σ x σ y 分别是XY的标准差。XY分别代表两组电压时间序列数据的电压幅值;
Figure 624922DEST_PATH_IMAGE005
式中,配电变压器相关性矩阵P的主对角线为配电变压器与其自身的皮尔逊相关系数恒为1,其余位置分别是配变电压时间序列两两之间的皮尔逊相关系数关于主对角线对称,m为配电变压器所属线路下配电变压器的数量;接着取配电变压器相关性矩阵P中每列的平均值作为配电变压器对线路的相关系数ρ trans=[ρ 1,ρ 2,ρ 3,...,ρ m]最后将配电变压器的相关性记为x ρ
S64:提取配电变压器所属线路下辖配变相关性均值记为对ρ trans,取ρ trans均值并记为x ρl
S65:提取配电变压器所属线路下辖配电变压器之间的电压滑动窗口相关性的均值,设置滑动窗口的起始位置、滑动窗口大小、滑动步长,计算滑动窗口的配电变压器之间的电压相关系数均值,记作x ρw
S66:将步骤S61-步骤S65的指标组成特征矩阵。
进一步优选,步骤S7中,基于Python环境的Pandas和Numpy库进行基于随机森林算法的线变关系校核模型训练。
进一步优选,步骤S7中,将特征矩阵的一部分数据划分为训练集,另一部分数据划分为测试集进行交叉验证,不断调整参数使得模型分类性能最优,最终确定基于随机森林算法的线变关系校核模型的各项参数。
进一步优选,步骤S7中,基于随机森林算法的线变关系校核模型的参数包括:决策树数量、决策树节点分裂方法、决策树最大深度、拆分决策树内部节点所需的最小样本数、决策树叶节点所需的最小样本数、决策树最佳分割时考虑的特征数量。
进一步优选,步骤S7中,决策树节点分裂方法采用信息熵算法或基尼系数算法。
进一步优选,步骤S2中,首先剔除三相电压幅值缺失占比超过设定比例的配电变压器;对于数据缺失占比小于等于设定比例的配电变压器使用三次多项式插值法进行缺失数据的填补,对于每一段[v a ,……v b ]含有缺失值的电压时间序列数据取其前后两个时刻的区间进行三次多项式的插值[v a-2 ,v a-1 ,v a ,……v b ,v b+1 ,v b+2 ] ;
Figure 397706DEST_PATH_IMAGE006
式中a 0 ,a 1 ,a 2 ,a 3 分别为三次多项式系数,y为三次多项式拟合后的电压值,v为拟合所需的电压值。v a a时刻的三相电压幅值,v a-1a-1时刻的三相电压幅值,v a-2a-2时刻的三相电压幅值,v b b时刻的三相电压幅值,v b+1b+1时刻的三相电压幅值,v b+2b+2时刻的三相电压幅值。
进一步优选,步骤S3具体过程为:
(1)配电变压器的电压时间序列数据表示为V=[v 1,v 2,v 3,...,v 96];同时设置一个滑动窗口W遍历电压时间序列数据V,滑动窗口大小为n,滑动步长为1;滑动窗口内的电压时间序列数据表示为W=[v i ,v i+1 ,v i+2 ,...,v i+n ],其中i为窗口左侧三相电压幅值数据的起始位置;
(2)将窗口后一位电压数据v i+n+1 与滑动窗口W的平均值W mean 做差得到一个时间序列S
(3)计算时间序列S的第一四分位数Q 1 、第三四分位数Q 3 、四分位距IQR=Q 3 -Q 1 ,设定正常阈值范围[Q 1 -3×IQR,Q 3 +3×IQR],时间序列S中的值不在阈值范围内的点对应的电压时间序列数据则视为异常值;
(4)取该异常值左右各2个三相电压幅值的平均值进行填补。
进一步优选,步骤S4中,任意一相的电压时间序列数据表示为V=[v 1,v 2,v 3,...,v 96],设置一个滑动窗口W遍历电压时间序列数据V,滑动步长为1;在t时刻滑动窗口W前后共2n+1个的数据为W=[v t-n ,...,v t-1 ,v t ,v t+1 ,...,v t+n ],在t时刻的电压幅值v t 拟合的公式为:
Figure 938409DEST_PATH_IMAGE007
式中,β 0β 1β 2β k-1为对应的电压幅值k-1阶系数,x为拟合所需的电压幅值,k为阶数;
滑动窗口Wk-1阶多项式矩阵形式为:
Figure 847459DEST_PATH_IMAGE008
式中ε为拟合残差项,n为窗口大小。
进一步优选,步骤S5中,使用Z-Score方法将电压时间序列数据V映射至均值为0,标准差为1的正态分布上:
Figure 215249DEST_PATH_IMAGE009
式中,V mean 为电压时间序列数据V的均值,V std 为电压时间序列数据V的标准差,v t t时刻电压幅值映射至正态分布区间的电压幅值,映射后得到Z-Score标准化后的电压时间序列数据V
本发明的优点是:本发明从数据分析的角度开展线变关系校核的工作,减少人工现场校核线变关系费时费力的现状。其他线变关系校核方法通常需要设置一个校核阈值,校核阈值的设置受到线路自身拓扑、负荷变化难以确定一个固定的阈值。本发明构建了基于随机森林算法的线变关系校核模型,相较于其他线变关系校核算法(支持向量机算法SVM、K最近邻算法KNN、朴素贝叶斯算法、自适应增强算法Adaboost),校核结果最佳。解决了10kV线路集群线变关系校核阈值动态变化难以确定的问题。本发明可有效提升线变关系的自动化校核程度,并且校核结果具有较高的准确率。
附图说明
图1为本发明的流程图。
图2为决策树数量F1评分曲线。
图3为二次学习决策树数量F1评分曲线。
图4为交叉验证信息熵F1评分曲线。
图5为交叉验证基尼系数F1评分曲线。
图6为决策树最大深度F1评分曲线。
图7为拆分决策树内部节点所需的最小样本数F1评分曲线。
图8为决策树叶节点所需的最小样本数 F1评分曲线。
图9为决策树最佳分割时考虑的特征数量F1评分曲线。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本实施例提供了一种基于随机森林分类算法的线变关系校核方法,具体步骤包括:
S1:收集带有线变关系标签的10kV线路配电变压器历史某日的三相电压幅值,得到电压时间序列数据。电压时间序列数据为单日15:00分钟间隔共96个点的三相电压幅值。如表1所示,电压时间序列数据[v1,v2,……,v96]对应15分钟间隔每日共96个点的配电变压器三相电压幅值。
表1.变压器三相电压幅值
Figure 209750DEST_PATH_IMAGE010
S2:对电压时间序列数据进行预处理。首先剔除三相电压幅值缺失占比超过30%的配电变压器。对于数据缺失占比小于等于30%的配电变压器使用三次多项式插值法进行缺失数据的填补,对于每一段[v a ,……v b ]含有缺失值的电压时间序列数据取其前后两个时刻的区间进行三次多项式的插值[v a-2 ,v a-1 ,v a ,……v b ,v b+1 ,v b+2 ] ;
Figure 554143DEST_PATH_IMAGE011
式中a 0 ,a 1 ,a 2 ,a 3 分别为三次多项式系数,y为三次多项式拟合后的电压值,v为拟合所需的电压值。v a a时刻的三相电压幅值,v a-1a-1时刻的三相电压幅值,v a-2a-2时刻的三相电压幅值,v b b时刻的三相电压幅值,v b+1b+1时刻的三相电压幅值,v b+2b+2时刻的三相电压幅值。
S3:对配电变压器的三相电压异常值采用异常时刻两端的电压均值予以替换。
(1)配电变压器的电压时间序列数据表示为V=[v 1,v 2,v 3,...,v 96];同时设置一个滑动窗口W遍历电压时间序列数据V,滑动窗口大小为n,滑动步长为1;滑动窗口内的电压时间序列数据表示为W=[v i ,v i+1 ,v i+2 ,...,v i+n ],其中i为窗口左侧三相电压幅值数据的起始位置;
(2)将窗口后一位电压数据v i+n+1 与滑动窗口W的平均值W mean 做差得到一个时间序列S
(3)计算时间序列S的第一四分位数Q 1 、第三四分位数Q 3 、四分位距IQR=Q 3 -Q 1 ,设定正常阈值范围[Q 1 -3×IQR,Q 3 +3×IQR],时间序列S中的值不在阈值范围内的点对应的电压时间序列数据则视为异常值;
(4)取该异常值左右各2个三相电压幅值的平均值进行填补。
S4:对配电变压器的三相电压幅值的进行平滑化处理。
任意一相的电压时间序列数据表示为V=[v 1,v 2,v 3,...,v 96],设置一个滑动窗口W遍历电压时间序列数据V,滑动步长为1。在t时刻滑动窗口W前后共2n+1个的数据为W=[v t-n ,...,v t-1 ,v t ,v t+1 ,...,v t+n ],在t时刻的电压幅值v t 拟合的公式为:
Figure 583279DEST_PATH_IMAGE012
式中,β 0β 1β 2β k-1为对应的电压幅值k-1阶系数,x为拟合所需的电压幅值,k为阶数。
滑动窗口Wk-1阶多项式矩阵形式为:
Figure 620505DEST_PATH_IMAGE008
式中ε为拟合残差项,n为窗口大小。
S5:对配电变压器的三相电压幅值预处理;
首先使用Z-Score方法将电压时间序列数据V映射至均值为0,标准差为1的正态分布上:
Figure 836723DEST_PATH_IMAGE013
式中,V mean 为电压时间序列数据V的均值,V std 为电压时间序列数据V的标准差,v t t时刻电压幅值映射至正态分布区间的电压幅值,映射后得到Z-Score标准化后的电压时间序列数据V
S6:对预处理后的电压时间序列数据进行特征构造,生成特征矩阵。
S61:提取配电变压器电压幅值的偏度指标x sk 、峰度指标x ku 、分桶熵指标x be
Figure 250387DEST_PATH_IMAGE014
Figure 868450DEST_PATH_IMAGE015
Figure 76577DEST_PATH_IMAGE003
式中,μ为Z-Score标准化后的电压时间序列数据V’的均值,σ为Z-Score标准化后的电压时间序列数据V 的标准差,E为数学期望,maxbins为分桶个数,p j 为电压时间序列数据落在第j个桶的概率,len(V)为电压时间序列数据的长度。
S62:提取电压时间序列数据V大于平均值的最长连续子序列长度指标记为x lam ;提取配电变压器所属线路的配电变压器数量指标记为x m ;提取配电变压器所属线路下辖专变数量占配电变压器所属线路所有配电变压器的比例指标记为x zb
S63:提取配电变压器所属线路下辖配电变压器之间的电压相关性ρ X,Y
Figure 45670DEST_PATH_IMAGE016
式中,cov(X,Y)XY的协方差,σ x σ y 分别是XY的标准差。XY分别代表两组电压时间序列数据的电压幅值。
Figure 731867DEST_PATH_IMAGE017
式中,配电变压器相关性矩阵P的主对角线为配电变压器与其自身的皮尔逊相关系数恒为1,其余位置分别是配变电压时间序列两两之间的皮尔逊相关系数关于主对角线对称,m为配电变压器所属线路下配电变压器的数量。接着取配电变压器相关性矩阵P中每列的平均值作为配电变压器对线路的相关系数ρ trans=[ρ 1,ρ 2,ρ 3,...,ρ m]最后将配电变压器的相关性记为x ρ
S64:提取配电变压器所属线路下辖配变相关性均值记为对ρ trans,取ρ trans均值并记为x ρl
S65:提取配电变压器所属线路下辖配电变压器之间的电压滑动窗口相关性的均值,滑动窗口的起始位置设置在早上6:00至夜间22:00,滑动窗口大小设置为8即2个小时长度,滑动步长为1计算滑动窗口的配电变压器之间的电压相关系数均值,记作x ρw
S66:将步骤S61-步骤S65的指标组成特征矩阵。
Figure 470015DEST_PATH_IMAGE018
特征矩阵i为各指标数量。
S7:将步骤S6生成的特征矩阵输入随机森林模型学习调参得到基于随机森林算法的线变关系校核模型。基于Python环境的Pandas和Numpy库进行基于随机森林算法的线变关系校核模型训练。将特征矩阵的70%数据划分为训练集,30%数据划分为测试集进行交叉验证,交叉验证折数为10次,不断调整参数使得F1值最优,F1值为评价模型分类性能的指标,取值在[0~1]之间,越接近1则模型的分类性能越好。最终确定基于随机森林算法的线变关系校核模型的各项参数,包括:决策树数量Ne,通常越多越好,但模型训练时间也将变长;决策树节点分裂方法C,分为信息熵与基尼系数两种算法;决策树最大深度Dmax,可防止模型过拟合;拆分决策树内部节点所需的最小样本数SSmin;决策树叶节点所需的最小样本数SLmin;决策树最佳分割时考虑的特征数量Fmax
S8:将待校核的线路配电变压器的电压数据通过预处理、特征构造生成特征矩阵,将特征矩阵输入步骤S7训练好的基于随机森林算法的线变关系校核模型进行校核,输出最终的校核结果。
本实施例的一个具体应用场景中,以电力公司用电信息采集系统中收集的534条10kV配电线路及其所挂接的26824个配变为例,采集单日15分钟间隔96点的三相电压幅值数据。实际情况中,含电压干扰装置的配变存在单相、两相、三相配置的情况,导致线变关系的误判。
步骤S1采集的电压时间序列数据经步骤S2、步骤S3、步骤S4、步骤S5处理得到的Z-Score标准化后的电压时间序列数据如表2所示。
表2.Z-Score标准化后的电压时间序列数据
Figure 616088DEST_PATH_IMAGE019
按步骤S6将Z-Score标准化后的电压时间序列数据进行特征构造,生成的特征矩阵如表3所示。
表3.特征矩阵
Figure 806898DEST_PATH_IMAGE020
将表3的特征矩阵输入基于随机森林算法的线变关系校核模型进行训练,各参数的F1学习曲线如图2所示。
从图2中可以看出,在决策树数量Ne取值为50左右时,基于随机森林算法的线变关系校核模型的F1评分最高,达到0.84。而后随着决策树数量Ne增加,基于随机森林算法的线变关系校核模型F1的评分呈现震荡且略有下降的趋势。由于决策树数量Ne的步长为10,容易遗漏步长内的最优F1评分,为了确定决策树数量Ne最佳取值,取决策树数量Ne为40-70,步长为1进行二次学习,交叉验证得到F1评分曲线,如图3所示。
从二次学习F1评分曲线可以看出,决策树数量Ne在取值45时,基于随机森林算法的线变关系校核模型的分类性能为最优达到0.8432。相比决策树数量Ne取值为50时仅提高了0.0032,调整该参数已无法继续提升基于随机森林算法的线变关系校核模型分类性能,因此选定决策树数量Ne最佳取值为45。
决策树分裂算法分为基于信息熵与基尼系数两种算法,因此设定在同样的基于随机森林算法的线变关系校核模型参数下进行20次的模型训练得到F1评分曲线如图4、图5所示。从图4、图5可以看出决策树分裂算法熵在基于基尼系数的分裂方式与基于信息熵的分裂方式区别不大,整体的F1评分都在0.84附近波动。决策树分裂算法选择为基尼系数。
决策树最大深度Dmax一般需根据数据特征的多少来选取,当增加的决策树的最大深度时,决策树会捕获数据中更多的有用信息,但同时也会增加随机森林过拟合的风险。最大深度设置的过小时则会时决策树的灵活性减小,容易产生欠拟合的情况。对于本文的电压时序数据,设定决策树最大深度Dmax的取值区间为[1~30],步长为1进行学习得到F1评分曲线,如图6所示。
从图6中可以看出,在决策树最大深度Dmax取值为21时,基于随机森林算法的线变关系校核模型的分类性能达到最优,F1为0.8824,而后随着树的深度增长F1值不变,F1值相较0.8432增长了0.0392,
为减小基于随机森林算法的线变关系校核模型的复杂度取得更小的泛化误差,需进一步学习并且选择合适的拆分决策树内部节点所需的最小样本数SSmin与决策树叶节点所需的最小样本数SLmin两个参数值,决策树叶节点所需的最小样本数学习中的参数取值为大于2的整数,因此把参数的取值区间设定为[2~30],步长为1得到F1评分曲线。
从图7、图8中可以看出,拆分决策树内部节点所需的最小样本数SSmin 取值为12时,基于随机森林算法的线变关系校核模型F1评分达到最高水平为0.8947。从图7、图8中可以看出决策树叶节点所需的最小样本数SLmin取值为10时基于随机森林算法的线变关系校核模型F1评分达到最高水平为0.9186。
决策树最佳分割时考虑的特征数量Fmax参数区间为[1~9],步长为1。得到F1评分曲线,如图9所示。从图9中可以看出决策树最佳分割时考虑的特征数量Fmax取值为5时,基于随机森林算法的线变关系校核模型F1值最优达到了0.9209。
通过上述学习曲线,最终得到基于随机森林算法的线变关系校核模型的最优参数取值: 决策树数量Ne=45;决策树节点分裂方法C为基尼系数;决策树最大深度Dmax=21;拆分决策树内部节点所需的最小样本数SSmin=12;决策树叶节点所需的最小样本数SLmin=10;决策树最佳分割时考虑的特征数量Fmax=5。
通过选取50条线路共2342台配变利用上述预处理与特征构造步骤得到特征矩阵输入进基于随机森林算法的线变关系校核模型校核,输出校核结果,如表4所示。
表4随机森林校核
Figure 296785DEST_PATH_IMAGE021
供电公司现场核实结果如表5所示,结果表明本发明方法校核准确率达到90.3%,所需校核原始数据均来源供电公司的用电信息采集系统,无需增加其他投入成本,可为供电公司减少大量人力物力。
表5现场核实实例结果
Figure 623861DEST_PATH_IMAGE022
以上所述是本发明的优选实施方式,应说明的是:以上实施例仅用以说明本发明而非限制,本发明也并不仅限于上述举例,一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围中。

Claims (10)

1.一种基于随机森林分类算法的线变关系校核方法,其特征是,包括以下步骤:
S1:收集带有线变关系标签的10kV线路配电变压器历史某日的三相电压幅值,得到电压时间序列数据;
S2:对电压时间序列数据进行预处理;
S3:对配电变压器的三相电压异常值采用异常时刻两端的电压均值予以替换;
S4:对配电变压器的三相电压幅值的进行平滑化处理;
S5:对配电变压器的三相电压幅值预处理;
S6:对预处理后的电压时间序列数据进行特征构造,生成特征矩阵;
S7:将步骤S6生成的特征矩阵输入随机森林模型学习调参得到基于随机森林算法的线变关系校核模型;
S8:将待校核的线路配电变压器的电压数据通过预处理、特征构造生成特征矩阵,将特征矩阵输入步骤S7训练好的基于随机森林算法的线变关系校核模型进行校核,输出最终的校核结果。
2.根据权利要求1所述的一种基于随机森林分类算法的线变关系校核方法,其特征是,步骤S6的过程如下:
S61:提取配电变压器电压幅值的偏度指标x sk 、峰度指标x ku 、分桶熵指标x be
Figure 562863DEST_PATH_IMAGE001
Figure 11161DEST_PATH_IMAGE002
Figure 557943DEST_PATH_IMAGE003
式中,μ为Z-Score标准化后的电压时间序列数据V’的均值,σ为Z-Score标准化后的电压时间序列数据V 的标准差,E为数学期望,maxbins为分桶个数,p j 为电压时间序列数据落在第j个桶的概率,len(V)为电压时间序列数据的长度;
S62:提取电压时间序列数据V大于平均值的最长连续子序列长度指标记为x lam ;提取配电变压器所属线路的配电变压器数量指标记为x m ;提取配电变压器所属线路下辖专变数量占配电变压器所属线路所有配电变压器的比例指标记为x zb
S63:提取配电变压器所属线路下辖配电变压器之间的电压相关性ρ X,Y
Figure 218731DEST_PATH_IMAGE004
式中,cov(X,Y)XY的协方差,σ x σ y 分别是XY的标准差;XY分别代表两组电压时 间序列数据的电压幅值;
Figure 564262DEST_PATH_IMAGE005
式中,配电变压器相关性矩阵P的主对角线为配电变压器与其自身的皮尔逊相关系数恒为1,其余位置分别是配变电压时间序列两两之间的皮尔逊相关系数关于主对角线对称,m为配电变压器所属线路下配电变压器的数量;接着取配电变压器相关性矩阵P中每列的平均值作为配电变压器对线路的相关系数ρ trans=[ρ 1,ρ 2,ρ 3,...,ρ m]最后将配电变压器的相关性记为x ρ
S64:提取配电变压器所属线路下辖配变相关性均值记为对ρ trans,取ρ trans均值并记为x ρl
S65:提取配电变压器所属线路下辖配电变压器之间的电压滑动窗口相关性的均值,设置滑动窗口的起始位置、滑动窗口大小、滑动步长,计算滑动窗口的配电变压器之间的电压相关系数均值,记作x ρw
S66:将步骤S61-步骤S65的指标组成特征矩阵。
3.根据权利要求1所述的一种基于随机森林分类算法的线变关系校核方法,其特征是,步骤S7中,基于Python环境的Pandas和Numpy库进行基于随机森林算法的线变关系校核模型训练。
4.根据权利要求3所述的一种基于随机森林分类算法的线变关系校核方法,其特征是,步骤S7中,将特征矩阵的一部分数据划分为训练集,另一部分数据划分为测试集进行交叉验证,不断调整参数使得模型分类性能最优,最终确定基于随机森林算法的线变关系校核模型的各项参数。
5.根据权利要求4所述的一种基于随机森林分类算法的线变关系校核方法,其特征是,步骤S7中,基于随机森林算法的线变关系校核模型的参数包括:决策树数量、决策树节点分裂方法、决策树最大深度、拆分决策树内部节点所需的最小样本数、决策树叶节点所需的最小样本数、决策树最佳分割时考虑的特征数量。
6.根据权利要求5所述的一种基于随机森林分类算法的线变关系校核方法,其特征是,步骤S7中,决策树节点分裂方法采用信息熵算法或基尼系数算法。
7.根据权利要求1所述的一种基于随机森林分类算法的线变关系校核方法,其特征是,步骤S2中,首先剔除三相电压幅值缺失占比超过设定比例的配电变压器;对于数据缺失占比小于等于设定比例的配电变压器使用三次多项式插值法进行缺失数据的填补,对于每一段[v a ,……v b ]含有缺失值的电压时间序列数据取其前后两个时刻的区间进行三次多项式的插值[v a-2 ,v a-1 ,v a ,……v b ,v b+1 ,v b+2 ] ;
Figure 652304DEST_PATH_IMAGE006
式中a 0 ,a 1 ,a 2 ,a 3 分别为三次多项式系数,y为三次多项式拟合后的电压值,v为拟合所需的电压值,v a a时刻的三相电压幅值,v a-1a-1时刻的三相电压幅值,v a-2a-2时刻的三相电压幅值,v b b时刻的三相电压幅值,v b+1b+1时刻的三相电压幅值,v b+2b+2时刻的三相电压幅值。
8.根据权利要求1所述的一种基于随机森林分类算法的线变关系校核方法,其特征是,步骤S3具体过程为:
(1)配电变压器的电压时间序列数据表示为V=[v 1,v 2,v 3,...,v 96];同时设置一个滑动窗口W遍历电压时间序列数据V,滑动窗口大小为n,滑动步长为1;滑动窗口内的电压时间序列数据表示为W=[v i ,v i+1 ,v i+2 ,...,v i+n ],其中i为窗口左侧三相电压幅值数据的起始位置;
(2)将窗口后一位电压数据v i+n+1 与滑动窗口W的平均值W mean 做差得到一个时间序列S
(3)计算时间序列S的第一四分位数Q 1 、第三四分位数Q 3 、四分位距IQR=Q 3 -Q 1 ,设定正常阈值范围[Q 1 -3×IQR,Q 3 +3×IQR],时间序列S中的值不在阈值范围内的点对应的电压时间序列数据则视为异常值;
(4)取异常值左右各2个三相电压幅值的平均值进行填补。
9.根据权利要求1所述的一种基于随机森林分类算法的线变关系校核方法,其特征是,步骤S4中,任意一相的电压时间序列数据表示为V=[v 1,v 2,v 3,...,v 96],设置一个滑动窗口W遍历电压时间序列数据V,滑动步长为1;在t时刻滑动窗口W前后共2n+1个的数据为W=[v t-n ,...,v t-1 ,v t ,v t+1 ,...,v t+n ],在t时刻的电压幅值v t 拟合的公式为:
Figure 184916DEST_PATH_IMAGE007
式中,β 0β 1β 2β k-1为对应的电压幅值k-1阶系数,x为拟合所需的电压幅值,k为阶数;
滑动窗口Wk-1阶多项式矩阵形式为:
Figure 649395DEST_PATH_IMAGE008
式中ε为拟合残差项,n为窗口大小。
10.根据权利要求9所述的一种基于随机森林分类算法的线变关系校核方法,其特征是,步骤S5中,使用Z-Score方法将电压时间序列数据V映射至均值为0,标准差为1的正态分布上:
Figure 583853DEST_PATH_IMAGE009
式中,V mean 为电压时间序列数据V的均值,V std 为电压时间序列数据V的标准差,v t t时刻电压幅值映射至正态分布区间的电压幅值,映射后得到Z-Score标准化后的电压时间序列数据V
CN202210525860.1A 2022-05-16 2022-05-16 基于随机森林分类算法的线变关系校核方法 Active CN114626487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210525860.1A CN114626487B (zh) 2022-05-16 2022-05-16 基于随机森林分类算法的线变关系校核方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210525860.1A CN114626487B (zh) 2022-05-16 2022-05-16 基于随机森林分类算法的线变关系校核方法

Publications (2)

Publication Number Publication Date
CN114626487A true CN114626487A (zh) 2022-06-14
CN114626487B CN114626487B (zh) 2023-09-05

Family

ID=81906929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210525860.1A Active CN114626487B (zh) 2022-05-16 2022-05-16 基于随机森林分类算法的线变关系校核方法

Country Status (1)

Country Link
CN (1) CN114626487B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687952A (zh) * 2023-01-03 2023-02-03 南昌工程学院 一种基于黎曼流形聚类的配电网线变关系辨识方法及装置
CN115800287A (zh) * 2022-10-27 2023-03-14 深圳市国电科技通信有限公司 一种基于阈值分割聚类的低压台区拓扑识别方法

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08265957A (ja) * 1995-03-25 1996-10-11 Koichi Tsuji マトリックス演算形系統保護装置
CN103777518A (zh) * 2014-01-22 2014-05-07 天津七一二通信广播有限公司 基于改进的最小二乘法的卫星导航授时系统及方法
CN107563539A (zh) * 2017-07-24 2018-01-09 佛山市顺德区中山大学研究院 基于机器学习模型的短期和中长期电力负荷预测方法
CN107832855A (zh) * 2017-09-14 2018-03-23 北京中恒博瑞数字电力科技有限公司 基于相关性分析的线损多源诊断方法及系统
CN108107455A (zh) * 2017-10-30 2018-06-01 千寻位置网络(浙江)有限公司 一种基于相位跳变的卫星钟差实时预报方法
CN108802565A (zh) * 2018-04-28 2018-11-13 国网上海市电力公司 一种基于机器学习的中压配电网断线不接地故障检测方法
CN109410502A (zh) * 2018-10-09 2019-03-01 北京建筑大学 火灾预警方法及装置
CN109885598A (zh) * 2019-01-25 2019-06-14 沈阳无距科技有限公司 故障识别方法、装置、计算机可读存储介质及电子设备
CN110727662A (zh) * 2019-09-10 2020-01-24 国网浙江省电力有限公司电力科学研究院 基于相关性分析的低压台区用户相位识别方法和系统
CN110874373A (zh) * 2019-12-10 2020-03-10 杭州岑石能源科技有限公司 一种基于机器学习stacking模型的线变关系判定方法
CN111045894A (zh) * 2019-12-13 2020-04-21 贵州广思信息网络有限公司广州分公司 数据库异常检测方法、装置、计算机设备和存储介质
CN111476173A (zh) * 2020-04-09 2020-07-31 南京工程学院 一种基于bas-svm的配电网电压暂降源识别方法
CN112163731A (zh) * 2020-08-25 2021-01-01 国网浙江省电力有限公司电力科学研究院 一种基于加权随机森林的专变用户电费回收风险识别方法
CN112615372A (zh) * 2020-12-24 2021-04-06 国网江西省电力有限公司电力科学研究院 一种基于变异系数的含电压干扰装置台区检测方法
CN113435725A (zh) * 2021-06-21 2021-09-24 国网宁夏电力有限公司信息通信公司 基于farima-lstm预测的电网主机动态阈值设定方法
CN113487447A (zh) * 2021-04-19 2021-10-08 国网河北省电力有限公司电力科学研究院 一种基于大数据的配电网负荷预测及线损成因分析方法
CN113725862A (zh) * 2021-09-01 2021-11-30 江苏省电力试验研究院有限公司 一种基于贝叶斯网络的同母拓扑辨识方法及设备
CN113743504A (zh) * 2021-09-03 2021-12-03 广东电网有限责任公司广州供电局 一种电压暂降源识别模型构建方法、装置、终端及介质
CN113915153A (zh) * 2021-09-30 2022-01-11 山东浪潮通软信息科技有限公司 一种矿用通风机异常检测的方法、系统、设备和存储介质
CN114065129A (zh) * 2021-11-15 2022-02-18 国网四川省电力公司成都供电公司 一种基于谱聚类方法的线变关系检测方法及检测系统
CN114123194A (zh) * 2021-12-07 2022-03-01 国网江苏省电力有限公司扬州供电分公司 一种基于贝叶斯模型的中压配电网拓扑修正方法
CN114362134A (zh) * 2021-11-06 2022-04-15 国网河南省电力公司新乡供电公司 一种基于线损合格率的中压线路降损方法

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08265957A (ja) * 1995-03-25 1996-10-11 Koichi Tsuji マトリックス演算形系統保護装置
CN103777518A (zh) * 2014-01-22 2014-05-07 天津七一二通信广播有限公司 基于改进的最小二乘法的卫星导航授时系统及方法
CN107563539A (zh) * 2017-07-24 2018-01-09 佛山市顺德区中山大学研究院 基于机器学习模型的短期和中长期电力负荷预测方法
CN107832855A (zh) * 2017-09-14 2018-03-23 北京中恒博瑞数字电力科技有限公司 基于相关性分析的线损多源诊断方法及系统
CN108107455A (zh) * 2017-10-30 2018-06-01 千寻位置网络(浙江)有限公司 一种基于相位跳变的卫星钟差实时预报方法
CN108802565A (zh) * 2018-04-28 2018-11-13 国网上海市电力公司 一种基于机器学习的中压配电网断线不接地故障检测方法
CN109410502A (zh) * 2018-10-09 2019-03-01 北京建筑大学 火灾预警方法及装置
CN109885598A (zh) * 2019-01-25 2019-06-14 沈阳无距科技有限公司 故障识别方法、装置、计算机可读存储介质及电子设备
CN110727662A (zh) * 2019-09-10 2020-01-24 国网浙江省电力有限公司电力科学研究院 基于相关性分析的低压台区用户相位识别方法和系统
CN110874373A (zh) * 2019-12-10 2020-03-10 杭州岑石能源科技有限公司 一种基于机器学习stacking模型的线变关系判定方法
CN111045894A (zh) * 2019-12-13 2020-04-21 贵州广思信息网络有限公司广州分公司 数据库异常检测方法、装置、计算机设备和存储介质
CN111476173A (zh) * 2020-04-09 2020-07-31 南京工程学院 一种基于bas-svm的配电网电压暂降源识别方法
CN112163731A (zh) * 2020-08-25 2021-01-01 国网浙江省电力有限公司电力科学研究院 一种基于加权随机森林的专变用户电费回收风险识别方法
CN112615372A (zh) * 2020-12-24 2021-04-06 国网江西省电力有限公司电力科学研究院 一种基于变异系数的含电压干扰装置台区检测方法
CN113487447A (zh) * 2021-04-19 2021-10-08 国网河北省电力有限公司电力科学研究院 一种基于大数据的配电网负荷预测及线损成因分析方法
CN113435725A (zh) * 2021-06-21 2021-09-24 国网宁夏电力有限公司信息通信公司 基于farima-lstm预测的电网主机动态阈值设定方法
CN113725862A (zh) * 2021-09-01 2021-11-30 江苏省电力试验研究院有限公司 一种基于贝叶斯网络的同母拓扑辨识方法及设备
CN113743504A (zh) * 2021-09-03 2021-12-03 广东电网有限责任公司广州供电局 一种电压暂降源识别模型构建方法、装置、终端及介质
CN113915153A (zh) * 2021-09-30 2022-01-11 山东浪潮通软信息科技有限公司 一种矿用通风机异常检测的方法、系统、设备和存储介质
CN114362134A (zh) * 2021-11-06 2022-04-15 国网河南省电力公司新乡供电公司 一种基于线损合格率的中压线路降损方法
CN114065129A (zh) * 2021-11-15 2022-02-18 国网四川省电力公司成都供电公司 一种基于谱聚类方法的线变关系检测方法及检测系统
CN114123194A (zh) * 2021-12-07 2022-03-01 国网江苏省电力有限公司扬州供电分公司 一种基于贝叶斯模型的中压配电网拓扑修正方法

Non-Patent Citations (12)

* Cited by examiner, † Cited by third party
Title
ABDELRAHMANSOBHY ET AL: "Overhead transmission lines dynamic rating estimation for renewable energy integration using machine learning", 《ENERGY REPORTS》 *
ABDELRAHMANSOBHY ET AL: "Overhead transmission lines dynamic rating estimation for renewable energy integration using machine learning", 《ENERGY REPORTS》, 30 November 2021 (2021-11-30), pages 804 - 813 *
J.D.LONG,PAULTEETOR著: "《R语言经典实例》", 31 May 2020, pages: 453 - 454 *
JUN ZHOU ET AL: "Checking method of feeder-transformers relationship based on characteristic representation of voltage time series", 《ISPECE 2021》 *
JUN ZHOU ET AL: "Checking method of feeder-transformers relationship based on characteristic representation of voltage time series", 《ISPECE 2021》, 31 December 2021 (2021-12-31), pages 1 - 8 *
Y. SHI ET AL: "An Approach of Electrical Load Profile Analysis Based on Time Series Data Mining", 《IEEE ACCESS》 *
Y. SHI ET AL: "An Approach of Electrical Load Profile Analysis Based on Time Series Data Mining", 《IEEE ACCESS》, 31 December 2020 (2020-12-31), pages 3 *
李正光等: "基于多维特征量融合的配电网拓扑异常溯源与应用模型研究", 《浙江电力》 *
李正光等: "基于多维特征量融合的配电网拓扑异常溯源与应用模型研究", 《浙江电力》, vol. 39, no. 7, 31 December 2020 (2020-12-31), pages 1 *
林孙奔: "一种基于电机转子转动惯量的电机特性测试系统研究", 《中国优秀高级论文全文数据库工程科技Ⅱ辑》 *
林孙奔: "一种基于电机转子转动惯量的电机特性测试系统研究", 《中国优秀高级论文全文数据库工程科技Ⅱ辑》, vol. 2017, no. 7, 15 July 2011 (2011-07-15), pages 042 - 10 *
约翰•福克斯著: "《非参数回归 平滑散点图》", 30 April 2015, pages: 34 - 35 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115800287A (zh) * 2022-10-27 2023-03-14 深圳市国电科技通信有限公司 一种基于阈值分割聚类的低压台区拓扑识别方法
CN115800287B (zh) * 2022-10-27 2023-10-27 深圳市国电科技通信有限公司 一种基于阈值分割聚类的低压台区拓扑识别方法
CN115687952A (zh) * 2023-01-03 2023-02-03 南昌工程学院 一种基于黎曼流形聚类的配电网线变关系辨识方法及装置
CN115687952B (zh) * 2023-01-03 2023-11-07 南昌工程学院 一种基于黎曼流形聚类的配电网线变关系辨识方法及装置

Also Published As

Publication number Publication date
CN114626487B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
Jiang et al. Scenario generation for wind power using improved generative adversarial networks
CN107909118B (zh) 一种基于深度神经网络的配电网工况录波分类方法
CN114626487A (zh) 基于随机森林分类算法的线变关系校核方法
CN109829497B (zh) 一种基于监督学习的台区用户识别及判别方法
CN111428201B (zh) 基于经验模态分解和前馈神经网络对时序数据的预测方法
CN117421687B (zh) 一种数字化电力环网柜运行状态监测方法
CN110726898B (zh) 一种配电网故障类型识别方法
CN111426905B (zh) 一种配电网同母线变关系异常诊断方法、装置及系统
CN111722046A (zh) 一种基于深度森林模型的变压器故障诊断方法
CN111159638A (zh) 基于近似低秩矩阵补全的配电网负荷缺失数据恢复方法
CN111507504A (zh) 基于数据重采样的Adaboost集成学习电网故障诊断系统及方法
CN111654392A (zh) 基于互信息的低压配电网拓扑识别方法及系统
CN112418476A (zh) 一种超短期电力负荷预测方法
CN115618249A (zh) 一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法
CN112070121A (zh) 一种基于变分自编码器的智能电表数据填补方法
CN114548586A (zh) 一种基于混合模型的短期电力负荷预测方法及系统
CN116089777A (zh) 一种基于信息智能匹配的新能源智能结算方法及系统
AU2021106200A4 (en) Wind power probability prediction method based on quantile regression
CN112508254B (zh) 变电站工程项目投资预测数据的确定方法
CN113866552A (zh) 一种基于机器学习的中压配网用户用电异常诊断方法
CN116596129A (zh) 一种电动汽车充电场站短期负荷预测模型构建方法
CN116911161A (zh) 一种结合数据增强的深度学习暂态电压稳定评估方法
CN113627655B (zh) 一种配电网灾前故障场景模拟预测方法及装置
CN115409317A (zh) 基于特征选择和机器学习的台区线损检测方法及装置
CN114169226A (zh) 短期电力负荷预测方法、计算机设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant