CN111489025A - 一种类别失衡的架空输电线路覆冰预测方法 - Google Patents
一种类别失衡的架空输电线路覆冰预测方法 Download PDFInfo
- Publication number
- CN111489025A CN111489025A CN202010267406.1A CN202010267406A CN111489025A CN 111489025 A CN111489025 A CN 111489025A CN 202010267406 A CN202010267406 A CN 202010267406A CN 111489025 A CN111489025 A CN 111489025A
- Authority
- CN
- China
- Prior art keywords
- class
- model
- unbalance
- data
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000005540 biological transmission Effects 0.000 title claims abstract description 12
- 239000011248 coating agent Substances 0.000 claims abstract description 4
- 238000000576 coating method Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000007477 logistic regression Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000000053 physical method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于策略选择技术领域,具体涉及一种类别失衡的架空输电线路覆冰预测方法。本发明是基于现有的分类或预测方法基础上提出类别失衡或样本失衡的解决方法,主要步骤为根据收集的数据量是否大于10万,然后分别进行类别失衡的判断,在数据量大于10万并且类别失衡时采用bagging算法构建模型进行预测,在数据量不大于10万并且类别失衡时通过权重模型对权重进行调整,然后再进行预测。本发明的方法结合覆冰数据的特点,建立一套针对类别或样本失衡的分类或预测方法,从策略机制和模型本身来解决覆冰类别失衡。本发明的覆冰预测模型,更贴合覆冰业务本身,更具有科学性和应用性。
Description
技术领域
本发明属于策略选择技术领域,具体涉及一种类别失衡的架空输电线路覆冰预测方法。
背景技术
输电线路覆冰是电力系统最重要的灾害之一,目前有很多关于输电线路覆冰的研究,采用物理的方法,机器学习的方法等,但是都必须基于已有的覆冰数据进行覆冰模型的研究。而一般提供的数据都非常有限,比如线路覆冰的数据,基本较少,在后期应用时会出现类别失衡的情况,这种情况会直接导致后期在训练模型时出现集中学习了多样本类别的数据,而少样本类被就被忽略,应用时就会出现预测错误等。现在解决这类问题没有统一和有效的方法,都是经过多次尝试,选择一种较为合适的方式。
架空输电线路的覆冰机理非常复杂,现在一般采用机器学习的方法来进行预测,但机器学习算法是基于较多的数据,类别均衡的数据等。而实际在应用中,往往覆冰的样本数据获取成本较高,收集较为困难,因此导致覆冰数据极为缺乏,会造成数据样本失衡,类别失衡,为机器学习算法的应用带来了不同的挑战。
只要覆冰预测模型都可能会遇到这一问题,无法避免。因此本发明提出了一种基于类别失衡的覆冰预测方法,来解决数据上带来的类别失衡,样本失衡等,相比传统的分类或预测方法更合理,科学,适用等。而一般的分类或预测方法主要缺点如下:
1、现有的分类或预测模型,都是基于类别均衡,样本均衡的情况下构建,对类别失衡非常敏感,会导致小量样本的类别不能被学习到,导致后期应用时小量样本的类别不会被预测到。
2、部分分类或预测模型在调整类别失衡时较难,比如损失函数不支持加入调整失衡的参数,样本特征值改变权重后会改变值本身的意义等,这样导致不能在算法上进行类别失衡的处理。
发明内容
本发明是基于现有的分类或预测方法基础上提出类别失衡或样本失衡的解决方法。结合覆冰数据的特点,建立一套针对类别或样本失衡的分类或预测方法,从策略机制和模型本身来解决覆冰类别失衡。本发明的覆冰预测模型,更贴合覆冰业务本身,更具有科学性和应用性。
为实现上述目的,本发明采用如下技术方案:
一种类别失衡的架空输电线路覆冰预测方法,其特征在于,包括以下步骤:
S1、数据收集:收集和覆冰形成的机理有关的数据,包括高程数据、坡度和坡向数据、温度、湿度、降雨量、风速、风向、风力等级、日期;
S2、判断步骤S1收集的数据量是否大于10万,若是,则进入步骤S3,否则进入步骤S4;
S3、基于架空输电线路覆冰中正样本和负样本(正样本:发生覆冰的样本,负样本:未发生覆冰样本)之间是否相差5倍的数量级来进行类别失衡的判断,若类别失衡,则将数据输入bagging模式模型,否则将数据输入批量训练模型;所述bagging模式模型为:将输入的数据集进行分割,获得N个子集,针对每个子集构建一个模型,即构建N个模型,每个子集经过对应的模型后,获得N个模型结果,采用bagging算法对N个模型结果进行集成,获得预测结果;
S4、判断类别是否失衡,若是,则将数据进入权重模型,否则将数据输入普通策略(不用考虑类别失衡的问题,直接按照正常的步骤选择算法模型即可,如采用机器学习的方法)选择模型,进行预测;所述权重模型为:在目标函数或训练时取的权重不同,定义目标函数为
其中k为类别变量,w为权重,L为loss函数,yk为观测样本中的目标变量,f(xk)为基础模型的输出结果,所述基础模型包括逻辑回归、支持向量机、决策树、boosting集成学习分类方法。
权重w的计算公式为:
其中,n为样本数量,m为class对应的样本数量,class取值为目标变量的类别;
根据权重w进行训练后,利用训练好的模型获得预测结果。
本发明的有益效果为,本发明针对类别失衡的架空输电线路覆冰数据提出的一种预测方法,通过类别失衡的处理使该方法更贴近覆冰业务,解决了常见的分类问题中的类别失衡问题,在应用方面更具有可实施性,训练后的模型更具有科学性和应用性,且整个解决方案简单易行,效果良好。
附图说明
图1为bagging模式模型逻辑结构示意图;
图2为本发明方法的逻辑结构示意图;
图3bagging模式的AUC和ROC曲线评估图;
图4为本发明方法的AUC和ROC曲线评估示意图。
具体实施方式
下面结合附图对本发明进行进一步说明。
本发明主要使用的数据和覆冰形成的机理有关,有地理环境高程数据(dem),坡度和坡向数据,以及气象数据温度,湿度,降雨量,风速,风向,风力等级,日期等等。
本发明是基于类别失衡提出一套模型构建的策略,建立了两个策略进行解决,一种是通过bagging模式来整体构建模型,第二种方式通过权重来构建模型。
1.bagging模式模型构建
Bagging模式模型构建主要从数据的角度解决失衡问题,在失衡数据集中,多次利用少量样本的数据;将多样本类别的数据分成多份(N份),每份和少样本数据量相当并和少量部分的数据进行合并来训练一个模型,如图1所示,本发明的bagging模式构建模型,基分类器选择了简单的分类模型,如逻辑回归,将总的数据集划分为N个子集,每个子集构建一个分类(逻辑回归)模型,总共构建N个模型。在应用时,数据都会经过N个模型,然后通过投票的方式将N个模型的预测结果进行统一输出。通过AUC和ROC对模型进行评估,bagging的AUC达到了0.95,图3是通过bagging后输出的ROC曲线。
2.权重(weight)模式
权重模式主要从模型的算法角度解决类别失衡,对目标函数中每个类别的输出的损失行数加权,降低样本多的类别损失函数权重,增加样本少的类别损失函数权重,使得类别之间达到平衡。总之,权重模式主要是是基于类别失衡的比例,在目标函数或训练时取的权重不同:
其中k为类别变量,通过上述的方式来达到分类失衡调整的目的。权重w的计算公式如下所示:
其中,n为样本数量,m为class对应的样本数量,class取值为目标变量的类别。若选择的模型支持class_weight,则将权重应用于class_weight即可,否则在训练时使用sample_weight的方式进行。而sample_weight模式下的权重计算如下:
其中,wi为i个样本的权重,class为类别数,m为类别class对应的样本数,样本i和样本的class标签相对应。
一般所有的基础算法都是支持sample_weight,当通过sample_weight调整权重时,基础分类模型,如逻辑回归,支持向量机,决策树,boosting集成学习分类方法等均可。
策略选择主要根据数据的情况选择不同的模型,通过数据量的大小来进行第一次划分,再在下一层划分类别失衡的问题,根据不同的情况构建模型的策略不同,具体选择策略的思路如图2所示。
基于本发明构建模型后,基于测试集对训练后的模型进行效果评估,评估指标主要是通过AUC和ROC曲线,本发明的AUC值为0.9665,ROC曲线如图4所示。
Claims (1)
1.一种类别失衡的架空输电线路覆冰预测方法,其特征在于,包括以下步骤:
S1、数据收集:收集和覆冰形成的机理有关的数据,包括高程数据、坡度和坡向数据、温度、湿度、降雨量、风速、风向、风力等级、日期;
S2、判断步骤S1收集的数据量是否大于10万,若是,则进入步骤S3,否则进入步骤S4;
S3、基于架空输电线路覆冰中正样本和负样本之间是否相差5倍的数量级来进行类别失衡的判断,若相差5倍,则判定类别失衡,将数据输入bagging模式模型,否则采用机器学习的方法来获得预测结果;所述bagging模式模型为:将输入的数据集进行分割,获得N个子集,针对每个子集构建一个训练模型,即构建N个训练模型,每个子集经过对应的训练模型后,获得N个训练模型的结果,采用bagging算法对N个模型结果进行集成,获得预测结果;
S4、基于架空输电线路覆冰中正样本和负样本之间是否相差5倍的数量级来进行类别失衡的判断,若相差5倍,则判定类别失衡,将数据输入权重模型,否则采用机器学习的方法获得预测结果;所述权重模型为:在目标函数训练时取的权重不同,定义目标函数为
其中k为类别变量,w为权重,L为loss函数,yk为观测样本中的目标变量,f(xk)为基础模型的输出结果,所述基础模型包括逻辑回归、支持向量机、决策树、boosting集成学习分类方法;
权重w的计算公式为:
其中,n为样本数量,mclass为class对应的样本数量,class取值为目标变量的类别;
根据获得的权重w进行训练后,利用训练好的模型获得预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010267406.1A CN111489025B (zh) | 2020-04-08 | 2020-04-08 | 一种类别失衡的架空输电线路覆冰预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010267406.1A CN111489025B (zh) | 2020-04-08 | 2020-04-08 | 一种类别失衡的架空输电线路覆冰预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111489025A true CN111489025A (zh) | 2020-08-04 |
CN111489025B CN111489025B (zh) | 2024-02-02 |
Family
ID=71794797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010267406.1A Active CN111489025B (zh) | 2020-04-08 | 2020-04-08 | 一种类别失衡的架空输电线路覆冰预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111489025B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140067271A1 (en) * | 2012-08-30 | 2014-03-06 | International Business Machines Corporation | Predicting ice coating status on transmission lines |
CN104361414A (zh) * | 2014-11-24 | 2015-02-18 | 武汉大学 | 一种基于相关向量机的输电线路覆冰预测方法 |
CN110136023A (zh) * | 2019-03-28 | 2019-08-16 | 清华大学 | 基于自适应增强学习的输电线路覆冰风险预测 |
CN110188397A (zh) * | 2019-05-06 | 2019-08-30 | 南瑞集团有限公司 | 一种架空输电线路覆冰预测模型和方法 |
CN110909453A (zh) * | 2019-11-01 | 2020-03-24 | 中国地质大学(武汉) | 一种基于eemd的输电线路覆冰等级预测方法 |
-
2020
- 2020-04-08 CN CN202010267406.1A patent/CN111489025B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140067271A1 (en) * | 2012-08-30 | 2014-03-06 | International Business Machines Corporation | Predicting ice coating status on transmission lines |
CN104361414A (zh) * | 2014-11-24 | 2015-02-18 | 武汉大学 | 一种基于相关向量机的输电线路覆冰预测方法 |
CN110136023A (zh) * | 2019-03-28 | 2019-08-16 | 清华大学 | 基于自适应增强学习的输电线路覆冰风险预测 |
CN110188397A (zh) * | 2019-05-06 | 2019-08-30 | 南瑞集团有限公司 | 一种架空输电线路覆冰预测模型和方法 |
CN110909453A (zh) * | 2019-11-01 | 2020-03-24 | 中国地质大学(武汉) | 一种基于eemd的输电线路覆冰等级预测方法 |
Non-Patent Citations (1)
Title |
---|
陈勇;李鹏;张忠军;聂海福;沈鑫;: "基于PCA-GA-LSSVM的输电线路覆冰负荷在线预测模型", 电力系统保护与控制, no. 10 * |
Also Published As
Publication number | Publication date |
---|---|
CN111489025B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104200268B (zh) | 一种基于粒子群优化极限学习机的带钢出口厚度预测方法 | |
CN110197218A (zh) | 基于多源卷积神经网络的雷雨大风等级预测分类方法 | |
CN110472817A (zh) | 一种结合深度神经网络的XGBoost集成信用评价系统及其方法 | |
CN110135630A (zh) | 基于随机森林回归和多步寻优的短期负荷需求预测方法 | |
CN112629851B (zh) | 基于数据增强方法与图像识别的海上风电机组齿轮箱故障诊断方法 | |
CN107103332A (zh) | 一种面向大规模数据集的相关向量机分类方法 | |
CN106548230A (zh) | 基于改进粒子群优化神经网络的变压器故障诊断方法 | |
CN109376801A (zh) | 基于集成深度神经网络的风力发电机叶片结冰诊断方法 | |
CN106991047A (zh) | 一种用于对面向对象软件缺陷进行预测的方法及系统 | |
CN109145960A (zh) | 基于改进粒子群算法的数据特征选择方法及系统 | |
CN112633337A (zh) | 一种基于聚类和边界点的不平衡数据处理方法 | |
Nhita | A rainfall forecasting using fuzzy system based on genetic algorithm | |
CN111339478A (zh) | 基于改进模糊层次分析法的气象数据质量评估方法 | |
CN114584406B (zh) | 一种联邦学习的工业大数据隐私保护系统及方法 | |
CN115545070A (zh) | 基于综合平衡网络的类不平衡轴承智能诊断方法 | |
CN108920477A (zh) | 一种基于二叉树结构的不平衡数据处理方法 | |
De Melo Junior et al. | An empirical comparison of classification algorithms for imbalanced credit scoring datasets | |
CN111489025B (zh) | 一种类别失衡的架空输电线路覆冰预测方法 | |
CN113378987A (zh) | 基于密度的不平衡数据混合采样算法 | |
CN108830405A (zh) | 基于多指标动态匹配的实时电力负荷预测系统及其方法 | |
CN109886316B (zh) | 基于云系相似度权重分配的变压器状态参量组合预测方法 | |
CN116894215A (zh) | 一种基于半监督动态图注意的齿轮箱故障诊断方法 | |
CN104572900B (zh) | 一种作物育种评价的性状特征选择方法 | |
US20050278352A1 (en) | Using affinity measures with supervised classifiers | |
CN110009024A (zh) | 一种基于id3算法的数据分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |