CN114626487B - 基于随机森林分类算法的线变关系校核方法 - Google Patents
基于随机森林分类算法的线变关系校核方法 Download PDFInfo
- Publication number
- CN114626487B CN114626487B CN202210525860.1A CN202210525860A CN114626487B CN 114626487 B CN114626487 B CN 114626487B CN 202210525860 A CN202210525860 A CN 202210525860A CN 114626487 B CN114626487 B CN 114626487B
- Authority
- CN
- China
- Prior art keywords
- voltage
- time series
- distribution transformer
- series data
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 53
- 230000009466 transformation Effects 0.000 title claims abstract description 50
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 47
- 239000011159 matrix material Substances 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000002159 abnormal effect Effects 0.000 claims abstract description 10
- 238000010276 construction Methods 0.000 claims abstract description 10
- 238000009499 grossing Methods 0.000 claims abstract description 4
- 238000003066 decision tree Methods 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- XKJMBINCVNINCA-UHFFFAOYSA-N Alfalone Chemical compound CON(C)C(=O)NC1=CC=C(Cl)C(Cl)=C1 XKJMBINCVNINCA-UHFFFAOYSA-N 0.000 claims description 3
- 208000025174 PANDAS Diseases 0.000 claims description 3
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 claims description 3
- 235000016496 Panda oleosa Nutrition 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 240000000220 Panda oleosa Species 0.000 claims 1
- 230000008859 change Effects 0.000 abstract description 10
- 230000011218 segmentation Effects 0.000 description 5
- 238000002790 cross-validation Methods 0.000 description 4
- 240000004718 Panda Species 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Optimization (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Mathematics (AREA)
- Economics (AREA)
- Mathematical Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Pure & Applied Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Algebra (AREA)
- Computing Systems (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种基于随机森林分类算法的线变关系校核方法,收集配电变压器历史某日的三相电压幅值,得到电压时间序列数据;对电压时间序列数据进行预处理并替换异常值;然后进行平滑化处理和标准化处理;之后对电压时间序列数据进行特征构造,生成特征矩阵;将生成的特征矩阵输入随机森林模型学习调参得到基于随机森林算法的线变关系校核模型;将待校核的线路配电变压器的电压数据通过预处理、特征构造生成特征矩阵,将特征矩阵输入训练好的基于随机森林算法的线变关系校核模型进行校核,输出最终的校核结果。本发明解决了10kV线路集群线变关系校核阈值动态变化难以确定的问题,可有效提升线变关系的自动化校核程度。
Description
技术领域
本申请涉及电力技术领域,具体地涉及一种基于随机森林分类算法的线变关系校核方法。
背景技术
线变关系是指配电网中10kV线路与10kV配电变压器的从属关系,由于配电网点多面广、运行方式频繁变化、台账信息维护滞后,导致配电网生产管理系统中线变关系经常出现与实际不符的情况。错误的线变关系会直接影响配电网日常生产与运行指标的正确性、供电服务的及时性与精准性、配电网抢修的安全性。
发明内容
为了利用配电变压器的电压量测值解决现场人工校核线变关系费时费力的现状,本发明提出一种基于随机森林分类算法的线变关系校核方法。
本发明通过下述技术方案来实现:一种基于随机森林分类算法的线变关系校核方法,包括以下步骤:
S1:收集带有线变关系标签的10kV线路配电变压器历史某日的三相电压幅值,得到电压时间序列数据;
S2:对电压时间序列数据进行预处理;
S3:对配电变压器的三相电压异常值采用异常时刻两端的电压均值予以替换;
S4:对配电变压器的三相电压幅值的进行平滑化处理;
S5:对配电变压器的三相电压幅值预处理;
S6:对预处理后的电压时间序列数据进行特征构造,生成特征矩阵;
S7:将步骤S6生成的特征矩阵输入随机森林模型学习调参得到基于随机森林算法的线变关系校核模型;
S8:将待校核的线路配电变压器的电压数据通过预处理、特征构造生成特征矩阵,将特征矩阵输入步骤S7训练好的基于随机森林算法的线变关系校核模型进行校核,输出最终的校核结果。
进一步优选,步骤S6的过程如下:
S61:提取配电变压器电压幅值的偏度指标x sk 、峰度指标x ku 、分桶熵指标x be :
式中,μ为Z-Score标准化后的电压时间序列数据V’的均值,σ为Z-Score标准化后的电压时间序列数据V ’ 的标准差,E为数学期望,maxbins为分桶个数,p j 为电压时间序列数据落在第j个桶的概率,len(V)为电压时间序列数据的长度;
S62:提取电压时间序列数据V大于平均值的最长连续子序列长度指标记为x lam ;提取配电变压器所属线路的配电变压器数量指标记为x m ;提取配电变压器所属线路下辖专变数量占配电变压器所属线路所有配电变压器的比例指标记为x zb ;
S63:提取配电变压器所属线路下辖配电变压器之间的电压相关性ρ X,Y :
式中,cov(X,Y)是X和Y的协方差,σ x 、σ y 分别是X和Y的标准差。X和Y分别代表两组电压时间序列数据的电压幅值;
式中,配电变压器相关性矩阵P的主对角线为配电变压器与其自身的皮尔逊相关系数恒为1,其余位置分别是配变电压时间序列两两之间的皮尔逊相关系数关于主对角线对称,m为配电变压器所属线路下配电变压器的数量;接着取配电变压器相关性矩阵P中每列的平均值作为配电变压器对线路的相关系数ρ trans=[ρ 1,ρ 2,ρ 3,...,ρ m]最后将配电变压器的相关性记为x ρ ;
S64:提取配电变压器所属线路下辖配变相关性均值记为对ρ trans,取ρ trans均值并记为x ρl ;
S65:提取配电变压器所属线路下辖配电变压器之间的电压滑动窗口相关性的均值,设置滑动窗口的起始位置、滑动窗口大小、滑动步长,计算滑动窗口的配电变压器之间的电压相关系数均值,记作x ρw ;
S66:将步骤S61-步骤S65的指标组成特征矩阵。
进一步优选,步骤S7中,基于Python环境的Pandas和Numpy库进行基于随机森林算法的线变关系校核模型训练。
进一步优选,步骤S7中,将特征矩阵的一部分数据划分为训练集,另一部分数据划分为测试集进行交叉验证,不断调整参数使得模型分类性能最优,最终确定基于随机森林算法的线变关系校核模型的各项参数。
进一步优选,步骤S7中,基于随机森林算法的线变关系校核模型的参数包括:决策树数量、决策树节点分裂方法、决策树最大深度、拆分决策树内部节点所需的最小样本数、决策树叶节点所需的最小样本数、决策树最佳分割时考虑的特征数量。
进一步优选,步骤S7中,决策树节点分裂方法采用信息熵算法或基尼系数算法。
进一步优选,步骤S2中,首先剔除三相电压幅值缺失占比超过设定比例的配电变压器;对于数据缺失占比小于等于设定比例的配电变压器使用三次多项式插值法进行缺失数据的填补,对于每一段[v a ,……v b ]含有缺失值的电压时间序列数据取其前后两个时刻的区间进行三次多项式的插值[v a-2 ,v a-1 ,v a ,……v b ,v b+1 ,v b+2 ] ;
式中a 0 ,a 1 ,a 2 ,a 3 分别为三次多项式系数,y为三次多项式拟合后的电压值,v为拟合所需的电压值。v a 为a时刻的三相电压幅值,v a-1为a-1时刻的三相电压幅值,v a-2为a-2时刻的三相电压幅值,v b 为b时刻的三相电压幅值,v b+1为b+1时刻的三相电压幅值,v b+2为b+2时刻的三相电压幅值。
进一步优选,步骤S3具体过程为:
(1)配电变压器的电压时间序列数据表示为V=[v 1,v 2,v 3,...,v 96];同时设置一个滑动窗口W遍历电压时间序列数据V,滑动窗口大小为n,滑动步长为1;滑动窗口内的电压时间序列数据表示为W=[v i ,v i+1 ,v i+2 ,...,v i+n ],其中i为窗口左侧三相电压幅值数据的起始位置;
(2)将窗口后一位电压数据v i+n+1 与滑动窗口W的平均值W mean 做差得到一个时间序列S;
(3)计算时间序列S的第一四分位数Q 1 、第三四分位数Q 3 、四分位距IQR=Q 3 -Q 1 ,设定正常阈值范围[Q 1 -3×IQR,Q 3 +3×IQR],时间序列S中的值不在阈值范围内的点对应的电压时间序列数据则视为异常值;
(4)取该异常值左右各2个三相电压幅值的平均值进行填补。
进一步优选,步骤S4中,任意一相的电压时间序列数据表示为V=[v 1,v 2,v 3,...,v 96],设置一个滑动窗口W遍历电压时间序列数据V,滑动步长为1;在t时刻滑动窗口W前后共2n+1个的数据为W=[v t-n ,...,v t-1 ,v t ,v t+1 ,...,v t+n ],在t时刻的电压幅值v t 拟合的公式为:
式中,β 0、β 1、β 2、β k-1为对应的电压幅值k-1阶系数,x为拟合所需的电压幅值,k为阶数;
滑动窗口W的k-1阶多项式矩阵形式为:
式中ε为拟合残差项,n为窗口大小。
进一步优选,步骤S5中,使用Z-Score方法将电压时间序列数据V映射至均值为0,标准差为1的正态分布上:
式中,V mean 为电压时间序列数据V的均值,V std 为电压时间序列数据V的标准差,v t ’ 为t时刻电压幅值映射至正态分布区间的电压幅值,映射后得到Z-Score标准化后的电压时间序列数据V ’ 。
本发明的优点是:本发明从数据分析的角度开展线变关系校核的工作,减少人工现场校核线变关系费时费力的现状。其他线变关系校核方法通常需要设置一个校核阈值,校核阈值的设置受到线路自身拓扑、负荷变化难以确定一个固定的阈值。本发明构建了基于随机森林算法的线变关系校核模型,相较于其他线变关系校核算法(支持向量机算法SVM、K最近邻算法KNN、朴素贝叶斯算法、自适应增强算法Adaboost),校核结果最佳。解决了10kV线路集群线变关系校核阈值动态变化难以确定的问题。本发明可有效提升线变关系的自动化校核程度,并且校核结果具有较高的准确率。
附图说明
图1为本发明的流程图。
图2为决策树数量F1评分曲线。
图3为二次学习决策树数量F1评分曲线。
图4为交叉验证信息熵F1评分曲线。
图5为交叉验证基尼系数F1评分曲线。
图6为决策树最大深度F1评分曲线。
图7为拆分决策树内部节点所需的最小样本数F1评分曲线。
图8为决策树叶节点所需的最小样本数 F1评分曲线。
图9为决策树最佳分割时考虑的特征数量F1评分曲线。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本实施例提供了一种基于随机森林分类算法的线变关系校核方法,具体步骤包括:
S1:收集带有线变关系标签的10kV线路配电变压器历史某日的三相电压幅值,得到电压时间序列数据。电压时间序列数据为单日15:00分钟间隔共96个点的三相电压幅值。如表1所示,电压时间序列数据[v1,v2,……,v96]对应15分钟间隔每日共96个点的配电变压器三相电压幅值。
表1.变压器三相电压幅值
S2:对电压时间序列数据进行预处理。首先剔除三相电压幅值缺失占比超过30%的配电变压器。对于数据缺失占比小于等于30%的配电变压器使用三次多项式插值法进行缺失数据的填补,对于每一段[v a ,……v b ]含有缺失值的电压时间序列数据取其前后两个时刻的区间进行三次多项式的插值[v a-2 ,v a-1 ,v a ,……v b ,v b+1 ,v b+2 ] ;
式中a 0 ,a 1 ,a 2 ,a 3 分别为三次多项式系数,y为三次多项式拟合后的电压值,v为拟合所需的电压值。v a 为a时刻的三相电压幅值,v a-1为a-1时刻的三相电压幅值,v a-2为a-2时刻的三相电压幅值,v b 为b时刻的三相电压幅值,v b+1为b+1时刻的三相电压幅值,v b+2为b+2时刻的三相电压幅值。
S3:对配电变压器的三相电压异常值采用异常时刻两端的电压均值予以替换。
(1)配电变压器的电压时间序列数据表示为V=[v 1,v 2,v 3,...,v 96];同时设置一个滑动窗口W遍历电压时间序列数据V,滑动窗口大小为n,滑动步长为1;滑动窗口内的电压时间序列数据表示为W=[v i ,v i+1 ,v i+2 ,...,v i+n ],其中i为窗口左侧三相电压幅值数据的起始位置;
(2)将窗口后一位电压数据v i+n+1 与滑动窗口W的平均值W mean 做差得到一个时间序列S;
(3)计算时间序列S的第一四分位数Q 1 、第三四分位数Q 3 、四分位距IQR=Q 3 -Q 1 ,设定正常阈值范围[Q 1 -3×IQR,Q 3 +3×IQR],时间序列S中的值不在阈值范围内的点对应的电压时间序列数据则视为异常值;
(4)取该异常值左右各2个三相电压幅值的平均值进行填补。
S4:对配电变压器的三相电压幅值的进行平滑化处理。
任意一相的电压时间序列数据表示为V=[v 1,v 2,v 3,...,v 96],设置一个滑动窗口W遍历电压时间序列数据V,滑动步长为1。在t时刻滑动窗口W前后共2n+1个的数据为W=[v t-n ,...,v t-1 ,v t ,v t+1 ,...,v t+n ],在t时刻的电压幅值v t 拟合的公式为:
式中,β 0、β 1、β 2、β k-1为对应的电压幅值k-1阶系数,x为拟合所需的电压幅值,k为阶数。
滑动窗口W的k-1阶多项式矩阵形式为:
式中ε为拟合残差项,n为窗口大小。
S5:对配电变压器的三相电压幅值预处理;
首先使用Z-Score方法将电压时间序列数据V映射至均值为0,标准差为1的正态分布上:
式中,V mean 为电压时间序列数据V的均值,V std 为电压时间序列数据V的标准差,v t ’ 为t时刻电压幅值映射至正态分布区间的电压幅值,映射后得到Z-Score标准化后的电压时间序列数据V ’ 。
S6:对预处理后的电压时间序列数据进行特征构造,生成特征矩阵。
S61:提取配电变压器电压幅值的偏度指标x sk 、峰度指标x ku 、分桶熵指标x be :
式中,μ为Z-Score标准化后的电压时间序列数据V’的均值,σ为Z-Score标准化后的电压时间序列数据V ’ 的标准差,E为数学期望,maxbins为分桶个数,p j 为电压时间序列数据落在第j个桶的概率,len(V)为电压时间序列数据的长度。
S62:提取电压时间序列数据V大于平均值的最长连续子序列长度指标记为x lam ;提取配电变压器所属线路的配电变压器数量指标记为x m ;提取配电变压器所属线路下辖专变数量占配电变压器所属线路所有配电变压器的比例指标记为x zb 。
S63:提取配电变压器所属线路下辖配电变压器之间的电压相关性ρ X,Y :
式中,cov(X,Y)是X和Y的协方差,σ x 、σ y 分别是X和Y的标准差。X和Y分别代表两组电压时间序列数据的电压幅值。
式中,配电变压器相关性矩阵P的主对角线为配电变压器与其自身的皮尔逊相关系数恒为1,其余位置分别是配变电压时间序列两两之间的皮尔逊相关系数关于主对角线对称,m为配电变压器所属线路下配电变压器的数量。接着取配电变压器相关性矩阵P中每列的平均值作为配电变压器对线路的相关系数ρ trans=[ρ 1,ρ 2,ρ 3,...,ρ m]最后将配电变压器的相关性记为x ρ 。
S64:提取配电变压器所属线路下辖配变相关性均值记为对ρ trans,取ρ trans均值并记为x ρl 。
S65:提取配电变压器所属线路下辖配电变压器之间的电压滑动窗口相关性的均值,滑动窗口的起始位置设置在早上6:00至夜间22:00,滑动窗口大小设置为8即2个小时长度,滑动步长为1计算滑动窗口的配电变压器之间的电压相关系数均值,记作x ρw 。
S66:将步骤S61-步骤S65的指标组成特征矩阵。
特征矩阵i为各指标数量。
S7:将步骤S6生成的特征矩阵输入随机森林模型学习调参得到基于随机森林算法的线变关系校核模型。基于Python环境的Pandas和Numpy库进行基于随机森林算法的线变关系校核模型训练。将特征矩阵的70%数据划分为训练集,30%数据划分为测试集进行交叉验证,交叉验证折数为10次,不断调整参数使得F1值最优,F1值为评价模型分类性能的指标,取值在[0~1]之间,越接近1则模型的分类性能越好。最终确定基于随机森林算法的线变关系校核模型的各项参数,包括:决策树数量Ne,通常越多越好,但模型训练时间也将变长;决策树节点分裂方法C,分为信息熵与基尼系数两种算法;决策树最大深度Dmax,可防止模型过拟合;拆分决策树内部节点所需的最小样本数SSmin;决策树叶节点所需的最小样本数SLmin;决策树最佳分割时考虑的特征数量Fmax。
S8:将待校核的线路配电变压器的电压数据通过预处理、特征构造生成特征矩阵,将特征矩阵输入步骤S7训练好的基于随机森林算法的线变关系校核模型进行校核,输出最终的校核结果。
本实施例的一个具体应用场景中,以电力公司用电信息采集系统中收集的534条10kV配电线路及其所挂接的26824个配变为例,采集单日15分钟间隔96点的三相电压幅值数据。实际情况中,含电压干扰装置的配变存在单相、两相、三相配置的情况,导致线变关系的误判。
步骤S1采集的电压时间序列数据经步骤S2、步骤S3、步骤S4、步骤S5处理得到的Z-Score标准化后的电压时间序列数据如表2所示。
表2.Z-Score标准化后的电压时间序列数据
按步骤S6将Z-Score标准化后的电压时间序列数据进行特征构造,生成的特征矩阵如表3所示。
表3.特征矩阵
将表3的特征矩阵输入基于随机森林算法的线变关系校核模型进行训练,各参数的F1学习曲线如图2所示。
从图2中可以看出,在决策树数量Ne取值为50左右时,基于随机森林算法的线变关系校核模型的F1评分最高,达到0.84。而后随着决策树数量Ne增加,基于随机森林算法的线变关系校核模型F1的评分呈现震荡且略有下降的趋势。由于决策树数量Ne的步长为10,容易遗漏步长内的最优F1评分,为了确定决策树数量Ne最佳取值,取决策树数量Ne为40-70,步长为1进行二次学习,交叉验证得到F1评分曲线,如图3所示。
从二次学习F1评分曲线可以看出,决策树数量Ne在取值45时,基于随机森林算法的线变关系校核模型的分类性能为最优达到0.8432。相比决策树数量Ne取值为50时仅提高了0.0032,调整该参数已无法继续提升基于随机森林算法的线变关系校核模型分类性能,因此选定决策树数量Ne最佳取值为45。
决策树分裂算法分为基于信息熵与基尼系数两种算法,因此设定在同样的基于随机森林算法的线变关系校核模型参数下进行20次的模型训练得到F1评分曲线如图4、图5所示。从图4、图5可以看出决策树分裂算法熵在基于基尼系数的分裂方式与基于信息熵的分裂方式区别不大,整体的F1评分都在0.84附近波动。决策树分裂算法选择为基尼系数。
决策树最大深度Dmax一般需根据数据特征的多少来选取,当增加的决策树的最大深度时,决策树会捕获数据中更多的有用信息,但同时也会增加随机森林过拟合的风险。最大深度设置的过小时则会时决策树的灵活性减小,容易产生欠拟合的情况。对于本文的电压时序数据,设定决策树最大深度Dmax的取值区间为[1~30],步长为1进行学习得到F1评分曲线,如图6所示。
从图6中可以看出,在决策树最大深度Dmax取值为21时,基于随机森林算法的线变关系校核模型的分类性能达到最优,F1为0.8824,而后随着树的深度增长F1值不变,F1值相较0.8432增长了0.0392,
为减小基于随机森林算法的线变关系校核模型的复杂度取得更小的泛化误差,需进一步学习并且选择合适的拆分决策树内部节点所需的最小样本数SSmin与决策树叶节点所需的最小样本数SLmin两个参数值,决策树叶节点所需的最小样本数学习中的参数取值为大于2的整数,因此把参数的取值区间设定为[2~30],步长为1得到F1评分曲线。
从图7、图8中可以看出,拆分决策树内部节点所需的最小样本数SSmin 取值为12时,基于随机森林算法的线变关系校核模型F1评分达到最高水平为0.8947。从图7、图8中可以看出决策树叶节点所需的最小样本数SLmin取值为10时基于随机森林算法的线变关系校核模型F1评分达到最高水平为0.9186。
决策树最佳分割时考虑的特征数量Fmax参数区间为[1~9],步长为1。得到F1评分曲线,如图9所示。从图9中可以看出决策树最佳分割时考虑的特征数量Fmax取值为5时,基于随机森林算法的线变关系校核模型F1值最优达到了0.9209。
通过上述学习曲线,最终得到基于随机森林算法的线变关系校核模型的最优参数取值: 决策树数量Ne=45;决策树节点分裂方法C为基尼系数;决策树最大深度Dmax=21;拆分决策树内部节点所需的最小样本数SSmin=12;决策树叶节点所需的最小样本数SLmin=10;决策树最佳分割时考虑的特征数量Fmax=5。
通过选取50条线路共2342台配变利用上述预处理与特征构造步骤得到特征矩阵输入进基于随机森林算法的线变关系校核模型校核,输出校核结果,如表4所示。
表4随机森林校核
供电公司现场核实结果如表5所示,结果表明本发明方法校核准确率达到90.3%,所需校核原始数据均来源供电公司的用电信息采集系统,无需增加其他投入成本,可为供电公司减少大量人力物力。
表5现场核实实例结果
以上所述是本发明的优选实施方式,应说明的是:以上实施例仅用以说明本发明而非限制,本发明也并不仅限于上述举例,一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围中。
Claims (4)
1.一种基于随机森林分类算法的线变关系校核方法,其特征是,包括以下步骤:
S1:收集带有线变关系标签的10kV线路配电变压器历史某日的三相电压幅值,得到电压时间序列数据;
S2:对电压时间序列数据进行预处理;首先剔除三相电压幅值缺失占比超过设定比例的配电变压器;对于数据缺失占比小于等于设定比例的配电变压器使用三次多项式插值法进行缺失数据的填补,对于每一段[v a ,……v b ]含有缺失值的电压时间序列数据取其前后两个时刻的区间进行三次多项式的插值[v a-2 ,v a-1 ,v a ,……v b ,v b+1 ,v b+2 ] ;
;
式中a 0 ,a 1 ,a 2 ,a 3 分别为三次多项式系数,y为三次多项式拟合后的电压值,v为拟合所需的电压值,v a 为a时刻的三相电压幅值,v a-1为a-1时刻的三相电压幅值,v a-2为a-2时刻的三相电压幅值,v b 为b时刻的三相电压幅值,v b+1为b+1时刻的三相电压幅值,v b+2为b+2时刻的三相电压幅值;
S3:对配电变压器的三相电压异常值采用异常时刻两端的电压均值予以替换;配电变压器的电压时间序列数据表示为V=[v 1,v 2,v 3,...,v 96];同时设置一个滑动窗口W遍历电压时间序列数据V,滑动窗口大小为n,滑动步长为1;滑动窗口内的电压时间序列数据表示为W=[v i ,v i+1 ,v i+2 ,...,v i+n ],其中i为窗口左侧三相电压幅值数据的起始位置;将窗口后一位电压数据v i+n+1 与滑动窗口W的平均值W mean 做差得到一个时间序列S;计算时间序列S的第一四分位数Q 1 、第三四分位数Q 3 、四分位距IQR=Q 3 -Q 1 ,设定正常阈值范围[Q 1 -3×IQR,Q 3 +3×IQR],时间序列S中的值不在阈值范围内的点对应的电压时间序列数据则视为异常值;取异常值左右各2个三相电压幅值的平均值进行填补;
S4:对配电变压器的三相电压幅值的进行平滑化处理;
任意一相的电压时间序列数据表示为V=[v 1,v 2,v 3,...,v 96],设置一个滑动窗口W遍历电压时间序列数据V,滑动步长为1;在t时刻滑动窗口W前后共2n+1个的数据为W=[v t-n ,...,v t-1 ,v t ,v t+1 ,...,v t+n ],在t时刻的电压幅值v t 拟合的公式为:
;
式中,β 0、β 1、β 2、β k-1为对应的电压幅值k-1阶系数,x为拟合所需的电压幅值,k为阶数;
滑动窗口W的k-1阶多项式矩阵形式为:
;
式中ε为拟合残差项,n为窗口大小;
S5:对配电变压器的三相电压幅值预处理; 使用Z-Score方法将电压时间序列数据V映射至均值为0,标准差为1的正态分布上:
;
式中,V mean 为电压时间序列数据V的均值,V std 为电压时间序列数据V的标准差,v t ’ 为t时刻电压幅值映射至正态分布区间的电压幅值,映射后得到Z-Score标准化后的电压时间序列数据V ’ ;
S6:对预处理后的电压时间序列数据进行特征构造,生成特征矩阵;
S7:将步骤S6生成的特征矩阵输入随机森林模型学习调参得到基于随机森林算法的线变关系校核模型;
S8:将待校核的线路配电变压器的电压数据通过预处理、特征构造生成特征矩阵,将特征矩阵输入步骤S7训练好的基于随机森林算法的线变关系校核模型进行校核,输出最终的校核结果;
步骤S6的过程如下:
S61:提取配电变压器电压幅值的偏度指标x sk 、峰度指标x ku 、分桶熵指标x be :
;
;
;
式中,μ为Z-Score标准化后的电压时间序列数据V’的均值,σ为Z-Score标准化后的电压时间序列数据V ’ 的标准差,E为数学期望,maxbins为分桶个数,p j 为电压时间序列数据落在第j个桶的概率,len(V)为电压时间序列数据的长度;
S62:提取电压时间序列数据V大于平均值的最长连续子序列长度指标记为x lam ;提取配电变压器所属线路的配电变压器数量指标记为x m ;提取配电变压器所属线路下辖专变数量占配电变压器所属线路所有配电变压器的比例指标记为x zb ;
S63:提取配电变压器所属线路下辖配电变压器之间的电压相关性ρ X,Y :
;
式中,cov(X,Y)是X和Y的协方差,σ x 、σ y 分别是X和Y的标准差;X和Y分别代表两组电压时间序列数据的电压幅值;
;
式中,配电变压器相关性矩阵P的主对角线为配电变压器与其自身的皮尔逊相关系数恒为1,其余位置分别是配变电压时间序列两两之间的皮尔逊相关系数关于主对角线对称,m为配电变压器所属线路下配电变压器的数量;接着取配电变压器相关性矩阵P中每列的平均值作为配电变压器对线路的相关系数ρ trans=[ρ 1,ρ 2,ρ 3,...,ρ m]最后将配电变压器的相关性记为x ρ ;
S64:提取配电变压器所属线路下辖配变相关性均值记为:取ρ trans均值并记为x ρl ;
S65:提取配电变压器所属线路下辖配电变压器之间的电压滑动窗口相关性的均值,设置滑动窗口的起始位置、滑动窗口大小、滑动步长,计算滑动窗口的配电变压器之间的电压相关系数均值,记作x ρw ;
S66:将步骤S61-步骤S65的指标组成特征矩阵。
2.根据权利要求1所述的一种基于随机森林分类算法的线变关系校核方法,其特征是,步骤S7中,基于Python环境的Pandas和Numpy库进行基于随机森林算法的线变关系校核模型训练。
3.根据权利要求2所述的一种基于随机森林分类算法的线变关系校核方法,其特征是,步骤S7中,将特征矩阵的一部分数据划分为训练集,另一部分数据划分为测试集进行交叉验证,不断调整参数使得模型分类性能最优,最终确定基于随机森林算法的线变关系校核模型的各项参数。
4.根据权利要求3所述的一种基于随机森林分类算法的线变关系校核方法,其特征是,步骤S7中,基于随机森林算法的线变关系校核模型的参数包括:决策树数量、决策树节点分裂方法、决策树最大深度、拆分决策树内部节点所需的最小样本数、决策树叶节点所需的最小样本数、决策树最佳分割时考虑的特征数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210525860.1A CN114626487B (zh) | 2022-05-16 | 2022-05-16 | 基于随机森林分类算法的线变关系校核方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210525860.1A CN114626487B (zh) | 2022-05-16 | 2022-05-16 | 基于随机森林分类算法的线变关系校核方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114626487A CN114626487A (zh) | 2022-06-14 |
CN114626487B true CN114626487B (zh) | 2023-09-05 |
Family
ID=81906929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210525860.1A Active CN114626487B (zh) | 2022-05-16 | 2022-05-16 | 基于随机森林分类算法的线变关系校核方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114626487B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115800287B (zh) * | 2022-10-27 | 2023-10-27 | 深圳市国电科技通信有限公司 | 一种基于阈值分割聚类的低压台区拓扑识别方法 |
CN115687952B (zh) * | 2023-01-03 | 2023-11-07 | 南昌工程学院 | 一种基于黎曼流形聚类的配电网线变关系辨识方法及装置 |
Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08265957A (ja) * | 1995-03-25 | 1996-10-11 | Koichi Tsuji | マトリックス演算形系統保護装置 |
CN103777518A (zh) * | 2014-01-22 | 2014-05-07 | 天津七一二通信广播有限公司 | 基于改进的最小二乘法的卫星导航授时系统及方法 |
CN107563539A (zh) * | 2017-07-24 | 2018-01-09 | 佛山市顺德区中山大学研究院 | 基于机器学习模型的短期和中长期电力负荷预测方法 |
CN107832855A (zh) * | 2017-09-14 | 2018-03-23 | 北京中恒博瑞数字电力科技有限公司 | 基于相关性分析的线损多源诊断方法及系统 |
CN108107455A (zh) * | 2017-10-30 | 2018-06-01 | 千寻位置网络(浙江)有限公司 | 一种基于相位跳变的卫星钟差实时预报方法 |
CN108802565A (zh) * | 2018-04-28 | 2018-11-13 | 国网上海市电力公司 | 一种基于机器学习的中压配电网断线不接地故障检测方法 |
CN109410502A (zh) * | 2018-10-09 | 2019-03-01 | 北京建筑大学 | 火灾预警方法及装置 |
CN109885598A (zh) * | 2019-01-25 | 2019-06-14 | 沈阳无距科技有限公司 | 故障识别方法、装置、计算机可读存储介质及电子设备 |
CN110727662A (zh) * | 2019-09-10 | 2020-01-24 | 国网浙江省电力有限公司电力科学研究院 | 基于相关性分析的低压台区用户相位识别方法和系统 |
CN110874373A (zh) * | 2019-12-10 | 2020-03-10 | 杭州岑石能源科技有限公司 | 一种基于机器学习stacking模型的线变关系判定方法 |
CN111045894A (zh) * | 2019-12-13 | 2020-04-21 | 贵州广思信息网络有限公司广州分公司 | 数据库异常检测方法、装置、计算机设备和存储介质 |
CN111476173A (zh) * | 2020-04-09 | 2020-07-31 | 南京工程学院 | 一种基于bas-svm的配电网电压暂降源识别方法 |
CN112163731A (zh) * | 2020-08-25 | 2021-01-01 | 国网浙江省电力有限公司电力科学研究院 | 一种基于加权随机森林的专变用户电费回收风险识别方法 |
CN112615372A (zh) * | 2020-12-24 | 2021-04-06 | 国网江西省电力有限公司电力科学研究院 | 一种基于变异系数的含电压干扰装置台区检测方法 |
CN113435725A (zh) * | 2021-06-21 | 2021-09-24 | 国网宁夏电力有限公司信息通信公司 | 基于farima-lstm预测的电网主机动态阈值设定方法 |
CN113487447A (zh) * | 2021-04-19 | 2021-10-08 | 国网河北省电力有限公司电力科学研究院 | 一种基于大数据的配电网负荷预测及线损成因分析方法 |
CN113725862A (zh) * | 2021-09-01 | 2021-11-30 | 江苏省电力试验研究院有限公司 | 一种基于贝叶斯网络的同母拓扑辨识方法及设备 |
CN113743504A (zh) * | 2021-09-03 | 2021-12-03 | 广东电网有限责任公司广州供电局 | 一种电压暂降源识别模型构建方法、装置、终端及介质 |
CN113915153A (zh) * | 2021-09-30 | 2022-01-11 | 山东浪潮通软信息科技有限公司 | 一种矿用通风机异常检测的方法、系统、设备和存储介质 |
CN114065129A (zh) * | 2021-11-15 | 2022-02-18 | 国网四川省电力公司成都供电公司 | 一种基于谱聚类方法的线变关系检测方法及检测系统 |
CN114123194A (zh) * | 2021-12-07 | 2022-03-01 | 国网江苏省电力有限公司扬州供电分公司 | 一种基于贝叶斯模型的中压配电网拓扑修正方法 |
CN114362134A (zh) * | 2021-11-06 | 2022-04-15 | 国网河南省电力公司新乡供电公司 | 一种基于线损合格率的中压线路降损方法 |
-
2022
- 2022-05-16 CN CN202210525860.1A patent/CN114626487B/zh active Active
Patent Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08265957A (ja) * | 1995-03-25 | 1996-10-11 | Koichi Tsuji | マトリックス演算形系統保護装置 |
CN103777518A (zh) * | 2014-01-22 | 2014-05-07 | 天津七一二通信广播有限公司 | 基于改进的最小二乘法的卫星导航授时系统及方法 |
CN107563539A (zh) * | 2017-07-24 | 2018-01-09 | 佛山市顺德区中山大学研究院 | 基于机器学习模型的短期和中长期电力负荷预测方法 |
CN107832855A (zh) * | 2017-09-14 | 2018-03-23 | 北京中恒博瑞数字电力科技有限公司 | 基于相关性分析的线损多源诊断方法及系统 |
CN108107455A (zh) * | 2017-10-30 | 2018-06-01 | 千寻位置网络(浙江)有限公司 | 一种基于相位跳变的卫星钟差实时预报方法 |
CN108802565A (zh) * | 2018-04-28 | 2018-11-13 | 国网上海市电力公司 | 一种基于机器学习的中压配电网断线不接地故障检测方法 |
CN109410502A (zh) * | 2018-10-09 | 2019-03-01 | 北京建筑大学 | 火灾预警方法及装置 |
CN109885598A (zh) * | 2019-01-25 | 2019-06-14 | 沈阳无距科技有限公司 | 故障识别方法、装置、计算机可读存储介质及电子设备 |
CN110727662A (zh) * | 2019-09-10 | 2020-01-24 | 国网浙江省电力有限公司电力科学研究院 | 基于相关性分析的低压台区用户相位识别方法和系统 |
CN110874373A (zh) * | 2019-12-10 | 2020-03-10 | 杭州岑石能源科技有限公司 | 一种基于机器学习stacking模型的线变关系判定方法 |
CN111045894A (zh) * | 2019-12-13 | 2020-04-21 | 贵州广思信息网络有限公司广州分公司 | 数据库异常检测方法、装置、计算机设备和存储介质 |
CN111476173A (zh) * | 2020-04-09 | 2020-07-31 | 南京工程学院 | 一种基于bas-svm的配电网电压暂降源识别方法 |
CN112163731A (zh) * | 2020-08-25 | 2021-01-01 | 国网浙江省电力有限公司电力科学研究院 | 一种基于加权随机森林的专变用户电费回收风险识别方法 |
CN112615372A (zh) * | 2020-12-24 | 2021-04-06 | 国网江西省电力有限公司电力科学研究院 | 一种基于变异系数的含电压干扰装置台区检测方法 |
CN113487447A (zh) * | 2021-04-19 | 2021-10-08 | 国网河北省电力有限公司电力科学研究院 | 一种基于大数据的配电网负荷预测及线损成因分析方法 |
CN113435725A (zh) * | 2021-06-21 | 2021-09-24 | 国网宁夏电力有限公司信息通信公司 | 基于farima-lstm预测的电网主机动态阈值设定方法 |
CN113725862A (zh) * | 2021-09-01 | 2021-11-30 | 江苏省电力试验研究院有限公司 | 一种基于贝叶斯网络的同母拓扑辨识方法及设备 |
CN113743504A (zh) * | 2021-09-03 | 2021-12-03 | 广东电网有限责任公司广州供电局 | 一种电压暂降源识别模型构建方法、装置、终端及介质 |
CN113915153A (zh) * | 2021-09-30 | 2022-01-11 | 山东浪潮通软信息科技有限公司 | 一种矿用通风机异常检测的方法、系统、设备和存储介质 |
CN114362134A (zh) * | 2021-11-06 | 2022-04-15 | 国网河南省电力公司新乡供电公司 | 一种基于线损合格率的中压线路降损方法 |
CN114065129A (zh) * | 2021-11-15 | 2022-02-18 | 国网四川省电力公司成都供电公司 | 一种基于谱聚类方法的线变关系检测方法及检测系统 |
CN114123194A (zh) * | 2021-12-07 | 2022-03-01 | 国网江苏省电力有限公司扬州供电分公司 | 一种基于贝叶斯模型的中压配电网拓扑修正方法 |
Non-Patent Citations (1)
Title |
---|
基于多维特征量融合的配电网拓扑异常溯源与应用模型研究;李正光等;《浙江电力》;20201231;第39卷(第7期);第1节第3段、第2节第2段、第2.1.2节 * |
Also Published As
Publication number | Publication date |
---|---|
CN114626487A (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114626487B (zh) | 基于随机森林分类算法的线变关系校核方法 | |
CN106055918B (zh) | 一种电力系统负荷数据的辨识及修正方法 | |
CN103324980B (zh) | 一种风电场风速预测方法 | |
CN117421687A (zh) | 一种数字化电力环网柜运行状态监测方法 | |
CN111428201B (zh) | 基于经验模态分解和前馈神经网络对时序数据的预测方法 | |
CN109902340B (zh) | 一种计及复杂气象耦合特性的多源-荷联合场景生成方法 | |
CN110808580B (zh) | 基于小波变换和极限学习机的电压暂降源快速辨识方法 | |
CN113866552B (zh) | 一种基于机器学习的中压配网用户用电异常诊断方法 | |
CN116050605A (zh) | 一种基于神经网络和随机森林法的电力负荷预测方法 | |
CN114021483A (zh) | 基于时域特征与XGBoost的超短期风电功率预测方法 | |
CN116596129A (zh) | 一种电动汽车充电场站短期负荷预测模型构建方法 | |
CN111080001A (zh) | 一种应用于风电场风速的深度神经网络预测方法 | |
CN112508254B (zh) | 变电站工程项目投资预测数据的确定方法 | |
CN108694475B (zh) | 基于混合模型的短时间尺度光伏电池发电量预测方法 | |
Tran et al. | A new grid search algorithm based on XGBoost model for load forecasting | |
CN117454289A (zh) | 一种低压配电台区相户关系识别方法及存储介质 | |
CN114839586B (zh) | 基于em算法的低压台区计量装置失准计算方法 | |
CN113487080B (zh) | 一种基于风速分类的风速动态场景生成方法、系统及终端 | |
CN113496255B (zh) | 基于深度学习与决策树驱动的配电网混合观测布点方法 | |
CN114169226A (zh) | 短期电力负荷预测方法、计算机设备以及存储介质 | |
CN112257953B (zh) | 一种基于极地新能源发电功率预测的数据处理方法 | |
CN114881120B (zh) | 基于深度自编码器和聚类的台区户变关系识别方法和系统 | |
CN110991121B (zh) | 基于cdbn-svr的空气预热器转子变形软测量方法 | |
Raval et al. | Solution of the Multi-Objective Optimal Power Flow Problem Using Oppositional-Based Algorithm | |
CN118484690A (zh) | 一种基于数据驱动的双尺度低压台区拓扑辨识方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |