CN113689053B - 一种基于随机森林的强对流天气架空线停电预测方法 - Google Patents
一种基于随机森林的强对流天气架空线停电预测方法 Download PDFInfo
- Publication number
- CN113689053B CN113689053B CN202111052656.4A CN202111052656A CN113689053B CN 113689053 B CN113689053 B CN 113689053B CN 202111052656 A CN202111052656 A CN 202111052656A CN 113689053 B CN113689053 B CN 113689053B
- Authority
- CN
- China
- Prior art keywords
- sample
- overhead line
- features
- power failure
- strong convection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 40
- 102100026620 E3 ubiquitin ligase TRAF3IP2 Human genes 0.000 claims abstract description 23
- 101000913784 Homo sapiens E3 ubiquitin ligase TRAF3IP2 Proteins 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000013075 data extraction Methods 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000007547 defect Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 238000012098 association analyses Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012876 topography Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000025274 Lightning injury Diseases 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013103 analytical ultracentrifugation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000004579 scanning voltage microscopy Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于随机森林的强对流天气架空线停电预测方法,涉及配电网智能管理技术领域。本发明包括步骤一:架空线坐标点处的特征提取和数据提取,特征提取包括气象特征、地理特征和电网特征;步骤二:对提取的气象特征、地理特征和电网特征参数进行标准化处理和均衡处理;步骤三:使用CIKS方法对预处理后的样本数据进行处理;步骤四:利用随机森林构建预测模型,并根据气象特征、地理特征和电网特征的参数对架空线的停电进行预测。本发明通过对架空线坐标点处的特征提取和数据提取,根据架空线的坐标对具体的架空线进行预测,并利用CIKS方法和随机森林模型结合的方式,有效的提高了预测的精准性,实现了对具体线路的停电预测。
Description
技术领域
本发明属于配电网智能管理技术领域,特别是涉及一种基于随机森林的强对流天气架空线停电预测方法。
背景技术
据统计在所有造成配电网停电的原因中,天气因素占据75%。由于配电网存在天然的结构脆弱性,在极端天气的影响下,10kV配电架空线更容易发生跳闸,造成区域电网停电,影响居民正常的生产生活。
针对由气象因素引起的停电预测问题可追溯到2000年左右,Liu使用飓风下的停电样本作为输入训练负二项回归模型,并在三个飓风示例中进行测试,研究结果表明该模型具有良好的泛化性能。
同时,Kabir等人提出了一种基于两步法的雷暴下的停电预测方法,并引入了代价敏感函数来克服样本不均衡问题,研究结果可以为电力公司提供决策依据。Han等人以Gulfcoas在飓风影响下的停电记录作为响应对象,使用在物理上可测量的各个物理状态量作为特征输入,利用一般线性模型(GLM)预测区域网格中是否会发生停电故障,研究结果表明该模型会过高的估计城镇中的停电数量,过低的估计郊区的停电数量。
为了进一步提高飓风下停电预测的准确性,Han等人提出了一种基于广义加性模型(GAM)的电网停电预测方法,经验证,该方法的预测准确性总是要高于GLM,并且克服了在使用GLM的过高估计城镇停电用户数的问题。
MCRobert等人考虑了一些以前的停电预测模型所没有考虑到的影响因子,如树的种类、特征以及树根的深度等,再利用随机森林对区域停电预测模型进行两步建模,第一步是预测该区域是否会发生停电故障,第二步是预测该区域停电的用户数目。
Hou等人综合考虑了台风情况下的电网因子,地理因子和气象因子,利用三种因子作为输入变量,以区域是否停电作为输出变量训练随机森林,并利用预测结果指导台风后的电网恢复工作。
Abderrazak等人利用电网中只能电表和相位传感器采集的时间序列数据训练深度置信网络,从而预测某区域电网是否会发生停电,研究结果表明该方法具有较好的准确性。为了便于对风雪造成的停电进行预测,Cerrai等人提出了一种两步预测模型,第一步利用机器学习算法预测该区域是否发生停电,第二步根据第一步的结果预测该区域停电的用户数。研究揭示了雪的密度对停电的用户数影响较大,预测结果可以为风雪天气下电力的快速恢复提供模型支撑。
Nateghi提出了一种基于随机森林的停电预测模型,该模型引入了树枝修剪系数。研究结果表明,特征变量越多,模型的预测精度越高。为了对台风天气下的停电范围进行预测,Hou提出了一种基于集成学习的停电范围预测模型,该模型利用XGBoost作为集成学习器,通过集成多个弱学习器,该方法能显著提高准确率和召回率。
综上所述,当前的研究主要集中在冰雪,大风等天气下,缺乏强对流天气下对架空线停电预测的研究,且较少考虑历史故障对停电的影响,研究的方法多基于的是基于区域网格划分,但网格划分的方法分辨率较低,虽然一定程度上能反映停电的范围,但是不能具体定位到线路。
发明内容
本发明的目的在于提供一种基于随机森林的强对流天气架空线停电预测方法,通过对架空线坐标点处的特征提取和数据提取,根据架空线的坐标对具体的架空线进行预测,并利用CIKS方法和随机森林模型结合的方式,有效的提高了预测的精准性,解决了现有停电预测不能具体定位到线路的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于随机森林的强对流天气架空线停电预测方法,包括以下步骤:
步骤一:架空线坐标点处的特征提取和数据提取;所述特征提取包括气象特征、地理特征和电网特征;所述数据提取包括线路的坐标、线路名称和对应的特征参数,以及栅格和ASCII文件,且线路名称和对应的特征参数需要进行坐标映射,再投影到地图上,最后提取坐标;
其中,气象特征包括强对流雷达强度最大值、雷电电流大小、和雷电回击次数;地理特征包括高程、坡度、坡向;电网特征包括过载次数、重载次数、停运次数、支线停运次数、缺陷次数和跳闸数据;
步骤二:数据预处理,包括对步骤一提取的气象特征、地理特征和电网特征参数进行标准化处理和均衡处理;标准化处理公式为:
其中,X为标准化后的变量;x为原始变量的值;xmin和xmax分别为原始变量中的最小值和最大值;
步骤三:使用CIKS方法对步骤二预处理后的样本数据进行处理,用于增大正负样本之间的距离;
步骤四:利用随机森林构建预测模型,并根据气象特征、地理特征和电网特征的参数对强对流天气架空线的停电进行预测,并输出预测结果。
进一步地,所述改进KNN-SMOTE结合的方式包括基于改进KNN的负样本下采样和基于SMOTE的正样本过采样。
进一步地,所述基于改进KNN的负样本下采样用于对距离样本i近的样本赋值较大的权重,而距离样本i远的样本赋值较小的权重,具体计算如下:
其中,wk是样本i第k个近邻样本的权重,yNN,k是第k个近邻样本,y’是下采样后的样本;距离权值wk和距离呈幂次方反比关系,距离权重的计算公式如下所示:
进一步地,所述基于SMOTE算法生成新样本,计算如下:
xnew=xi+(xk-xi)μ;
其中,xnew是新生成的样本,xi是少数样本,xk是从xi的KNN样本中出的3个中的一个,μ是0和1之间的随机数;
进一步地,所述步骤四还包括确定停电阈值,且停电阈值通过POT方法确定。
进一步地,所述步骤一中气象特征参数来源是中国气象局的数值天气预测数据,地理分辨率为3*3km,时间分辨率是6分钟。
本发明具有以下有益效果:
本发明通过提取气象特征、地理特征和电网特征,并通过将线路的坐标、线路名称和对应的特征对应,并利用CIKS方法和随机森林模型结合的方式,根据架空线的坐标对具体的架空线进行预测,有效的提高了预测的精准性,实现对具体架空线路的强对流天气停电预测。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为不同状态量和响应变量的MIC值;
图2为基于RNS的各模型分类混淆矩阵;
图3为基于RNS的BPNN模型分类混淆矩阵;
图4为基于RNS的SVM模型的ROC曲线;
图5为基于RNS的DT模型的ROC曲线;
图6为基于RNS的RF模型的ROC曲线;
图7为基于CIKS的各种模型分类混淆矩阵;
图8为基于CIKS的BPNN模型的ROC曲线;
图9为基于CIKS的SVM模型的ROC曲线;
图10为基于CIKS的DT模型的ROC曲线;
图11为基于CIKS的RF模型的ROC曲线。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明为一种基于随机森林的强对流天气架空线停电预测方法,包括以下步骤:
步骤一:架空线坐标点处的特征提取和数据提取;特征提取包括气象特征、地理特征和电网特征。其中,气象特征包括强对流雷达强度最大值、雷电电流大小、和雷电回击次数。气象特征的数据来源是气象雷达图,本实施例所采用的的强对流数据来源是多普雷雷达回波图,数据来源是中国气象局的数值天气预测(NWP)数据,地理分辨率为3*3km,时间分辨率是6分钟。
地理特征包括高程、坡度、坡向。由于10kV配电线路所处的地形和地貌对台风过境时局部区域的风速有明显的影响,例如:在垭口地形下,气流从开阔区进入狭窄区,由于流区压缩产生的“狭管效应”会导致风速大幅增加,进而导致杆塔损坏。因此,地形信息是预测台风环境下10kV杆塔受损须考虑的孕灾环境属性之一。本申请考虑的地形因素包括高程、坡度和坡向。
电网特征包括过载次数、重载次数、停运次数、支线停运次数、缺陷次数和跳闸数据。过载次数会可能会对架空线的主绝缘造成一定的损伤,重载次数会引入一定的隐患,停运次数和支线停运次数反映了线路的稳定性,而缺陷次数体现了运行过程中的线路发生隐患的次数,反映了线路运行的健康情况。
数据提取采用点特征提取工具ArcGIS。数据提取包括线路的坐标,架空线每隔固定的距离会取一个坐标点,取完点后剩余不足的线路段也会取一个点。
线路名称和对应的特征参数,此数据首先需要进行坐标映射,然后投影到地图上,再使用ArcGIS提取坐标。
栅格和ASCII文件,此数据可以直接使用ArcGIS提取特征。由于,强对流所用的坐标系CGCS-2000,而高程数据用的地理坐标GCS-WGS-1984,不同的坐标系之间不能之间联合使用,需要进行坐标转换。转换后的坐标系才能用够用于特征提取。因此,本实施例采用ArcGIS对地理坐标系不同的数据进行坐标转换。
同时,强对流强度雷达强度最大值取的是12分钟内的强对流的最大值,雷电电流大小指的是上次发生雷击的雷电流的大小,雷电回击次数指的是该架空线发生上一次回击的次数。与强对流数据一样,跳闸数据也是一种动态数据拥有时间维度,本实施例中是在发生强对流的12min各个架空线是否发生跳闸。
步骤二:数据预处理,包括对步骤一提取的气象特征、地理特征和电网特征参数进行标准化处理和均衡处理;标准化处理公式为:
其中,X为标准化后的变量;x为原始变量的值;xmin和xmax分别为原始变量中的最小值和最大值。
改进KNN-SMOTE结合的方式包括基于改进KNN的负样本下采样和基于SMOTE的正样本过采样。基于改进KNN的负样本下采样用于对距离样本i近的样本赋值较大的权重,而距离样本i远的样本赋值较小的权重,具体计算如下:
其中,wk是样本i第k个近邻样本的权重,yNN,k是第k个近邻样本,y’是下采样后的样本;距离权值wk和距离呈幂次方反比关系,距离权重的计算公式如下所示:
基于SMOTE算法生成新样本,计算如下:
xnew=xi+(xk-xi)μ;
其中,xnew是新生成的样本,xi是少数样本,xk是从xi的KNN样本中出的3个中的一个,μ是0和1之间的随机数。
步骤三:使用CIKS方法对步骤二预处理后的样本数据进行处理,用于增大正负样本之间的距离。
步骤四:利用随机森林构建预测模型,并根据气象特征、地理特征和电网特征的参数对强对流天气架空线的停电进行预测,以及确定停电阈值,且停电阈值通过POT方法确定,并输出预测结果。
其中,使用停电阈值判断该线路是否发生故障,算法如下所示:
BEGIN
1.Receive new data
2.Calculate Power outage probability(New Blackout)
3.Initialize(Threshold)
4.WHILE i<N DO
5.BEGIN WHILE
6.IF Threshold>Blackout ITHEN Threshold=Blackout i
7.END IF
8.i=i+1
9.Check new data
10.Receive instantaneously updates
11.END WHILE
END。
本实施例在训练随机森林时的损失函数是基尼不纯度(Gini Impurity),计算公式如下:
其中,nc是需要待分的类别数,pi是树中的第i类的比例。
本实施例中的气象数据来源为安徽电网提供的2021年1月到3月中旬的NWP数据,地理分辨率为km,时间分辨率为6min;电网数据为安徽电网提供的架空线历史缺陷数据和2021年1月到3月中旬的跳闸数据;地理数据的来源为地理云监测平台,分辨率为3*3km。
安徽电网2021年1月到3月中旬共发生1197起因强对流天气造成的跳闸事故,因此强对流是影响该区域电网稳定性的一个重要因素。为确定气象特征、地理特征和电网特征数据对发生跳闸的因素的影响大小,本实施例采用生成一组随机数的方法,随机的在0-1上进行采样并生成和样本数据同样长的随机序列,采用最大信息系数(Maximal InformationCoefficient,MIC)值对关联程度进行表征,MIC值能够反映不同序列之间相关程度的大小,相关程度弱的序列之间MIC较小,反之则MIC较大。如图1展示了不同的状态量之间的MIC值大小。
为了评估模型,本实施例采用了混淆矩阵、F1值、分类准确性(ACC),几何平均数(Gmean)和AUC(Area Under ROC Curve)对分类结果进行评价,如表1.二分类任务的混淆矩阵,展示了二分类任务的混淆矩阵。
表1.二分类任务的混淆矩阵
F1值的计算公式如下:
其中,R和P分别是第i类的查准率和查全率,F1值计算公式中得R和P可以根据表1中得混淆矩阵得到,其中R=TP/(TP+FP),P=TP/(TP+FP)。
几何平均数的计算方法如下:
其中,S为特异度,S=TN/(TN+FP),集合平均数越大表示分类器的性能越好。
AUC可以通过ROC曲线下的各部分面积之和得到。当AUC的值小于0.5时,表示该模型比随机猜测的结果还差,当AUC的值的等于0.5表示该模型和随机猜测的正确率几乎一致,当AUC=1,是完美分类器,当AUC=[0.85,0.95]表示该分类器效果很好,当AUC=[0.7,0.85]表示该分类器效果一般。
为确定不同模型的分类效果对比,采用反向传播神经神经网络(Back PropagateNeural Network,BPNN)、支持向量机(Support Vector Machine,SVM)、决策树(DecisionTree,DT)和RF对使用改进KNN-SMOTE结合的方式(Combination of Improved KNN andSMOTE,CIKS)进行样本不均衡处理的样本、随机负采样(Random negative sampling,RNS)得到的样本和不进行任何样本不平衡度技术处理的原始样本(Original sample,OS),分类结果如表2.不同算法的分类结果所示。
其中,本实施例采用的是5折交叉验证对模型训练和测试,并使用POT方法确定的停电阈值为0.63,此时可以使得模型的预测结果达到最优。
表2.不同算法的分类结果
由此可知,采用不同的网络模型和重采样算法结果相差巨大,在使用未重采样的原样本进行预测时预测的准确率很高,但是F1-Score很小,准确率很高时因为数据集中的负样本数量很多,容易将多数样本正确分类,然后在本文的预测任务中,我们需要的是对正样本尽可能正确的分类,虽然此时的分类准确率很高,但是不能正确的对负样本进行分类,因此分类效果很差,其中的集合平均系数几乎为0。
在使用了随机下采样的方法得到的分类结果较差,这是由于随机采样的方法容易采集到边界点,使得样本较为分散,从而降低模型分类的准确率。分类效果最好的是利用CIKS对原始样本进行处理,该方法能够根据样本数据的分布方式自动的寻找聚类中心,从而能够增大正负样本之间的距离,此外引入了SMOTE算法对正样本进行扩充,增大了样本整体的数量,因而能够极大的提高分类的准确性。
由表2可知,相较于BPNN、SVM、DT,RF模型的分类准确率更高,这得益于随机森林(RF)是一种集成学习算法,它可以聚合多个弱学习器形成一个强学习器,随机森林是多个决策树的组合,本文中选择树的个数是200,极大的提高了模型的分类性能。
为了直观的表现各个模型表现性能的差异,下面使用混淆矩阵和AUC分别对BPNN、SVM、DT和RF的分类结果进行描述,其中0代表的是正样本,1代表的是负样本。
混淆矩阵中对角线上代表的是被正确分类的结果,非对角线上代表的是被正确分类的样本。由图2可知,在使用RNS对原始样本进行处理后,DT和RF的分类效果相近,远高于BPNN和SVM,但是仍然存在大量被误分类的样本。
由图3-6可知,在三种模型中,DT和RF的分类效果相近,远高于BPNN和SVM,但是四种模型的AUC均处于0.5附近,因此并不意味着DT和RF的分类效果很好。
为了进一步提高分类准确性,下面采用CIKS对原始样本进行处理并分析其混淆矩阵、ROC曲线和AUC大小。图7和图8-11分别展示了基于CIKS分类结果的混淆矩阵和ROC曲线。
可知,使用CIKS处理后的样本能够大大的提高模型的分类准确性,但是对于BPNN和SVM,在其对角线上还存在着相当大一部分被误分类的训练样本,再观察DT和RF可知,二者的分类效果接近,对角线线上误分类的样本极少。使用CIKS的AUC曲线要远远高于未使用CIKS方法对样本数据处理后的AUC,同时从图7的ROC曲线可知,DT和RF模型的分类准确性总是要高于另外两个模型,结合采用了混淆矩阵、F1值、分类准确性(ACC),几何平均数(Gmean)和AUC(Area Under ROC Curve)对分类结果进行评价的内容可知,使用CIKS对样本数据处理后能够使得RF模型的分类准确性达到很好的程度。
本申请通过气象特征、地理特征和电网特征对配电网架空线停电的影响,建立了RF模型对强对流下架空线停电进行预测,通过随机生成了一段时间序列并和响应变量进行关联分析,同时对提出的其它变量和响应变量进行关联分析,对比随机序列的关联分析结果和本申请提出的11个变量的关联分析结果可知,随机序列的MIC值远低于其它11个变量,因此本申请中提出的11个状态量都和相应变量呈现强相关。
通过确定不同的样本处理方法对模型预测精度的影响,可知基于CIKS方法对严重偏斜的样本中的正样本上采样和负样本进行下采样可以有效提高模型预测的准确性。并且,通过评估不同模型对架空线停电预测结果准确性的影响,从而确定本申请中基于集成学习的方法的RF的预测精度最高,在测试集上的ACC最高达到了0.9323,F1-Score值最高为0.9323,几何系数最高可以达到0.9338。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (6)
1.一种基于随机森林的强对流天气架空线停电预测方法,其特征在于,包括以下步骤:
步骤一:架空线坐标点处的特征提取和数据提取;所述特征提取包括气象特征、地理特征和电网特征;所述数据提取包括线路的坐标、线路名称和对应的特征参数,以及栅格和ASCII文件,且线路名称和对应的特征参数需要进行坐标映射,再投影到地图上,最后提取坐标;
步骤二:数据预处理,包括对步骤一提取的气象特征、地理特征和电网特征参数进行标准化处理和均衡处理;标准化处理公式为:
其中,X为标准化后的变量;x为原始变量的值;xmin和xmax分别为原始变量中的最小值和最大值;
步骤三:使用CIKS方法对步骤二预处理后的样本数据进行处理,用于增大正负样本之间的距离,其中CIKS方法为改进KNN-SMOTE结合的方式;
步骤四:利用随机森林构建预测模型,并根据气象特征、地理特征和电网特征的参数对强对流天气架空线的停电进行预测,并输出预测结果;
所述改进KNN-SMOTE结合的方式包括基于改进KNN的负样本下采样和基于SMOTE的正样本过采样;
所述基于改进KNN的负样本下采样用于对距离样本i近的样本赋值较大的权重,而距离样本i远的样本赋值较小的权重,具体计算如下:
其中,wk是样本i第k个近邻样本的权重,yNN,k是第k个近邻样本,y’是下采样后的样本;距离权值wk和距离呈幂次方反比关系,距离权重的计算公式如下所示:
所述基于SMOTE算法生成新样本,计算如下:
xnew=xi+(xk-xi)μ;
其中,xnew是新生成的样本,xi是少数样本,xk是从xi的KNN样本中出的3个中的一个,μ是0和1之间的随机数。
2.根据权利要求1所述的一种基于随机森林的强对流天气架空线停电预测方法,其特征在于,所述气象特征包括强对流雷达强度最大值、雷电电流大小、和雷电回击次数。
3.根据权利要求1所述的一种基于随机森林的强对流天气架空线停电预测方法,其特征在于,所述地理特征包括高程、坡度、坡向。
4.根据权利要求1所述的一种基于随机森林的强对流天气架空线停电预测方法,其特征在于,所述电网特征包括过载次数、重载次数、停运次数、支线停运次数、缺陷次数和跳闸数据。
5.根据权利要求1所述的一种基于随机森林的强对流天气架空线停电预测方法,其特征在于,所述步骤四还包括确定停电阈值,且停电阈值通过POT方法确定。
6.根据权利要求1所述的一种基于随机森林的强对流天气架空线停电预测方法,其特征在于,所述步骤一中气象特征参数来源是中国气象局的数值天气预测数据,地理分辨率为3*3km,时间分辨率是6分钟。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111052656.4A CN113689053B (zh) | 2021-09-09 | 2021-09-09 | 一种基于随机森林的强对流天气架空线停电预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111052656.4A CN113689053B (zh) | 2021-09-09 | 2021-09-09 | 一种基于随机森林的强对流天气架空线停电预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113689053A CN113689053A (zh) | 2021-11-23 |
CN113689053B true CN113689053B (zh) | 2024-03-29 |
Family
ID=78585700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111052656.4A Active CN113689053B (zh) | 2021-09-09 | 2021-09-09 | 一种基于随机森林的强对流天气架空线停电预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113689053B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115034380B (zh) * | 2022-05-25 | 2024-06-14 | 国网安徽省电力有限公司电力科学研究院 | 架空线停电预测神经网络压缩方法及系统 |
WO2024039302A2 (en) * | 2022-08-18 | 2024-02-22 | Nanyang Technological University | Method and system for estimating a failure probability associated with objects |
CN118709869A (zh) * | 2024-08-29 | 2024-09-27 | 浙江大学 | 一种台风期间的停电时空序列预测方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246936A (zh) * | 2013-04-24 | 2013-08-14 | 广东电网公司中山供电局 | 电网架空输电线路台风风险预警的系统及方法 |
CN106485262A (zh) * | 2016-09-09 | 2017-03-08 | 国网山西省电力公司晋城供电公司 | 一种母线负荷预测方法 |
CN109460004A (zh) * | 2018-10-26 | 2019-03-12 | 国网天津市电力公司 | 基于大数据的配电网故障预测方法及系统 |
CN110174713A (zh) * | 2018-12-13 | 2019-08-27 | 广东电网有限责任公司 | 一种电力线路强对流天气监测预警方法及装置 |
CN110213222A (zh) * | 2019-03-08 | 2019-09-06 | 东华大学 | 基于机器学习的网络入侵检测方法 |
CN110200626A (zh) * | 2019-06-14 | 2019-09-06 | 重庆大学 | 一种基于投票分类器的视觉诱导晕动症检测方法 |
CN110991653A (zh) * | 2019-12-10 | 2020-04-10 | 电子科技大学 | 一种针对不平衡数据集分类的方法 |
CN111027629A (zh) * | 2019-12-13 | 2020-04-17 | 国网山东省电力公司莱芜供电公司 | 基于改进随机森林的配电网故障停电率预测方法及系统 |
CN111191832A (zh) * | 2019-12-25 | 2020-05-22 | 国电南瑞科技股份有限公司 | 一种台风灾害配电网杆塔故障预测方法及系统 |
CN111860684A (zh) * | 2020-07-30 | 2020-10-30 | 元神科技(杭州)有限公司 | 一种基于双网络的电厂设备故障预警方法及系统 |
CN112257329A (zh) * | 2020-09-10 | 2021-01-22 | 泰豪软件股份有限公司 | 一种判定台风对线路影响的方法 |
CN112633337A (zh) * | 2020-12-14 | 2021-04-09 | 哈尔滨理工大学 | 一种基于聚类和边界点的不平衡数据处理方法 |
CN112766550A (zh) * | 2021-01-08 | 2021-05-07 | 佰聆数据股份有限公司 | 基于随机森林的停电敏感用户预测方法、系统、存储介质及计算机设备 |
CN112836735A (zh) * | 2021-01-27 | 2021-05-25 | 中山大学 | 一种优化的随机森林处理不平衡数据集的方法 |
-
2021
- 2021-09-09 CN CN202111052656.4A patent/CN113689053B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246936A (zh) * | 2013-04-24 | 2013-08-14 | 广东电网公司中山供电局 | 电网架空输电线路台风风险预警的系统及方法 |
CN106485262A (zh) * | 2016-09-09 | 2017-03-08 | 国网山西省电力公司晋城供电公司 | 一种母线负荷预测方法 |
CN109460004A (zh) * | 2018-10-26 | 2019-03-12 | 国网天津市电力公司 | 基于大数据的配电网故障预测方法及系统 |
CN110174713A (zh) * | 2018-12-13 | 2019-08-27 | 广东电网有限责任公司 | 一种电力线路强对流天气监测预警方法及装置 |
CN110213222A (zh) * | 2019-03-08 | 2019-09-06 | 东华大学 | 基于机器学习的网络入侵检测方法 |
CN110200626A (zh) * | 2019-06-14 | 2019-09-06 | 重庆大学 | 一种基于投票分类器的视觉诱导晕动症检测方法 |
CN110991653A (zh) * | 2019-12-10 | 2020-04-10 | 电子科技大学 | 一种针对不平衡数据集分类的方法 |
CN111027629A (zh) * | 2019-12-13 | 2020-04-17 | 国网山东省电力公司莱芜供电公司 | 基于改进随机森林的配电网故障停电率预测方法及系统 |
CN111191832A (zh) * | 2019-12-25 | 2020-05-22 | 国电南瑞科技股份有限公司 | 一种台风灾害配电网杆塔故障预测方法及系统 |
CN111860684A (zh) * | 2020-07-30 | 2020-10-30 | 元神科技(杭州)有限公司 | 一种基于双网络的电厂设备故障预警方法及系统 |
CN112257329A (zh) * | 2020-09-10 | 2021-01-22 | 泰豪软件股份有限公司 | 一种判定台风对线路影响的方法 |
CN112633337A (zh) * | 2020-12-14 | 2021-04-09 | 哈尔滨理工大学 | 一种基于聚类和边界点的不平衡数据处理方法 |
CN112766550A (zh) * | 2021-01-08 | 2021-05-07 | 佰聆数据股份有限公司 | 基于随机森林的停电敏感用户预测方法、系统、存储介质及计算机设备 |
CN112836735A (zh) * | 2021-01-27 | 2021-05-25 | 中山大学 | 一种优化的随机森林处理不平衡数据集的方法 |
Non-Patent Citations (2)
Title |
---|
台风灾害下用户停电区域预测及评估;侯慧;耿浩;肖祥;黄勇;吴昊;李显强;于士文;;电网技术;20190416(06);98-104 * |
基于泊松分布的输电线路跳闸概率预测方法;王乐;杨帅;朱时阳;叶丽莎;周文俊;喻剑辉;;高电压技术;20171101(11);311-317 * |
Also Published As
Publication number | Publication date |
---|---|
CN113689053A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113689053B (zh) | 一种基于随机森林的强对流天气架空线停电预测方法 | |
CN113837477B (zh) | 数据双驱动的台风灾害下电网故障预测方法、装置和设备 | |
CN104239970A (zh) | 一种基于Adaboost的输电线舞动风险预警方法 | |
CN112149887A (zh) | 一种基于数据时空特征的pm2.5浓度预测方法 | |
CN114169445A (zh) | 基于cae和gan混合网络的日前光伏功率预测方法、装置与系统 | |
CN111191832A (zh) | 一种台风灾害配电网杆塔故障预测方法及系统 | |
CN113987912A (zh) | 一种基于地理信息的污染物在线监测系统 | |
CN106845080A (zh) | 基于差异修正的景区旅游气象灾害智能预测方法 | |
CN117556197B (zh) | 一种基于人工智能的台风涡旋初始化方法 | |
CN116432123A (zh) | 一种基于cart决策树算法的电能表故障预警方法 | |
Hou et al. | Spatial distribution assessment of power outage under typhoon disasters | |
CN115115163A (zh) | 台风过境下输电线路杆塔故障危险度评估方法及存储介质 | |
CN104298706A (zh) | 一种基于数据挖掘的输电杆塔塔材实际强度计算方法 | |
CN113313289B (zh) | 一种基于多数据源的电网气象预警系统 | |
CN114882373A (zh) | 基于深度神经网络的多特征融合沙尘暴预测方法 | |
CN111427101B (zh) | 一种雷雨大风分级预警方法、系统、存储介质 | |
CN116663393A (zh) | 一种基于随机森林的配电网持续高温下故障风险等级预测方法 | |
CN116310596A (zh) | 一种基于域适应的电力仪表小样本目标检测方法 | |
Li et al. | Prediction Algorithm of Wind Waterlogging Disaster in Distribution Network Based on Multi‐Source Data Fusion | |
Xu et al. | Early Warning Method of Power Grid Meteorological Disasters Based on Scene Recognition | |
CN114943174A (zh) | 一种用于寒潮小样本情况下的风机出力损失预测方法 | |
Wang | Feasibility study of typhoon disaster economic loss assessment based on random forest | |
Zhao et al. | Prediction Method of Optical Cable Line Fault Probability Based on Improved KNN Algorithm | |
Zhou et al. | Research on Data Classification and Risk Level Perception of Weak Distribution Network | |
CN110826601B (zh) | 基于改进的支持向量机算法的林火预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |