CN113537607B - 停电预测方法 - Google Patents

停电预测方法 Download PDF

Info

Publication number
CN113537607B
CN113537607B CN202110838392.9A CN202110838392A CN113537607B CN 113537607 B CN113537607 B CN 113537607B CN 202110838392 A CN202110838392 A CN 202110838392A CN 113537607 B CN113537607 B CN 113537607B
Authority
CN
China
Prior art keywords
training
data
target
sub
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110838392.9A
Other languages
English (en)
Other versions
CN113537607A (zh
Inventor
马晓琴
薛晓慧
罗红郊
孟祥甫
郭小鹤
马占海
薛峪峰
雷晓萍
佟芳
张俊超
严嘉正
杨军
张启君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Qinghai Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Qinghai Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Qinghai Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110838392.9A priority Critical patent/CN113537607B/zh
Publication of CN113537607A publication Critical patent/CN113537607A/zh
Application granted granted Critical
Publication of CN113537607B publication Critical patent/CN113537607B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Water Supply & Treatment (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种停电预测方法。其中,该方法包括:从第一目标区域的样本数据中提取数据,构成训练基分类器的子训练集,其中,基分类器包括:多个不同学习模型,其中,学习模型与子训练集一一对应;基于学习模型对应的子训练集对学习模型进行训练,得到学习模型对应的目标学习模型;基于集成学习中的投票法集成多个不同目标学习模型,得到强学习器;将当前区域的目标停电数据输入至强学习器进行预测得到预测结果,其中,预测结果包括:停电或者不停电。本申请解决了由于相关技术中缺乏对停电情况的预测方法造成的供电可靠性差,影响用户用电体验的技术问题。

Description

停电预测方法
技术领域
本申请涉及电力领域,具体而言,涉及一种停电预测方法。
背景技术
电力供应的可靠性对于社会的运转起着重要的作用,当今社会的很多方面都需要用到电力资源,电网配套设施被认为是当今社会的重要设施。由于电力供应在社会的运转中占据重要的地位,因此,停电会对社会造成较大的负面影响,停电事件对国民经济造成的损失远超过电力系统本身的损失。
随着智能电网的快速建设,在生产经营活动中,电网公司积累大量停电业务数据。利用数据挖掘、机器学习等技术对电力方面的停电数据进行分析和处理,能够挖掘出停电数据中潜在的有用信息,提升数据价值,可以更好地了解到电网的运行状态,对于电力公司实现可靠、安全的供电起到有益作用。
分类预测是数据分析与挖掘中较为常见的技术之一,通过对历史的停电数据进行分析,根据分析得到的规律进行停电数据进行分类预测,这可以为电网公司、与电力有关的其它公司、单位提前做好计划停电和故障停电的规划安排提供决策参考。一方面,为计划停电的安排提供依据,减少电力设备或电力系统事故对用户造成更大的影响,降低用户端的停电频率,提高低压供电可靠性。另一方面,为故障停电的提前准备提供参考,提前安排相关维修人员和涉及材料,平衡成本和速度,减少停电持续时间。还可以通过停电数据分析考虑设置合适的备用电源数目提高本地电网系统的供电可靠性。但相关技术中,缺乏对停电情况预测方法,因此,往往会导致供电可靠性较差,影响用户的用电体验以及会造成重大经济损失。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种停电预测方法,以至少解决由于相关技术中缺乏对停电情况的预测方法造成的供电可靠性差,影响用户用电体验的技术问题。
根据本申请实施例的一个方面,提供了一种停电预测方法,包括:从第一目标区域的样本数据中提取数据,构成训练基分类器的子训练集,其中,基分类器包括:多个不同学习模型,其中,学习模型与子训练集一一对应;基于学习模型对应的子训练集对学习模型进行训练,得到学习模型对应的目标学习模型;基于集成学习中的投票法集成多个不同目标学习模型,得到强学习器;将当前区域的目标停电数据输入至强学习器进行预测得到预测结果,其中,预测结果包括:停电或者不停电。
可选的,从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集,包括:基于自助聚集算法以随机有放回的方式抽取样本数据构建子训练集。
可选地,学习模型包括:深度神经网络模型、XGBoost、因式分解模型。
可选地,从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集之前,还包括:确定样本数据中各种类型的数据特征;基于基尼系数确定各种类型的数据特征对应的重要性分数;将重要性分数同预定阈值进行比较,确定重要性分数大于预定阈值的数据特征为目标数据特征。
可选地,从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集,包括:从包括有目标数据特征的样本数据,提取数据构成子训练集。
可选地,该方法还包括:确定与第一目标区域相邻的第二目标区域;构建第一目标区域与第二目标区域的关联矩阵;对关联矩阵进行QR矩阵分解,构造第一目标区域第二目标区域的空间位置特征,将空间位置特征作为数据特征对学习模型进行训练。
根据本申请实施例的另一方面,还提供了一种停电预测装置,包括:提取模块,用于从第一目标区域的样本数据中提取数据,构成训练基分类器的子训练集,其中,基分类器包括:多个不同学习模型,其中,学习模型与子训练集一一对应;训练模块,用于基于学习模型对应的子训练集对学习模型进行训练,得到学习模型对应的目标学习模型;集成模块,用于基于集成学习中的投票法集成多个不同目标学习模型,得到强学习器;预测模块,用于将当前区域的目标停电数据输入至强学习器进行预测得到预测结果,其中,预测结果包括:停电或者不停电。
可选地,提取模块,包括:提取单元,用于基于自助聚集算法以随机有放回的方式抽取样本数据构建子训练集。
根据本申请实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行任意一种停电预测方法。
根据本申请实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行任意一种停电预测方法。
在本申请实施例中,采用强学习器对停电状况进行预测的方式,通过从第一目标区域的样本数据中提取数据,构成训练基分类器的子训练集,其中,基分类器包括:多个不同学习模型,其中,学习模型与子训练集一一对应;基于学习模型对应的子训练集对学习模型进行训练,得到学习模型对应的目标学习模型;基于集成学习中的投票法集成多个不同目标学习模型,得到强学习器;将当前区域的目标停电数据输入至强学习器进行预测得到预测结果,其中,预测结果包括:停电或者不停电,达到了准确预测停电状况,进而可通知各个用户提前做好停电准备,积极配置备用电源目的,从而实现了准确预测停电状况,提高供电可靠性,提升用户体验的技术效果,进而解决了由于相关技术中缺乏对停电情况的预测方法造成的供电可靠性差,影响用户用电体验的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的停电预测方法的流程示意图;
图2是根据本申请一种可选的基于bagging集成的停电分类预测方法的流程示意图;
图3根据本申请实施例的一种可选的停电预测装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于本领域技术人员更好的理解本申请相关实施例,现将本申请相关实施例可能技术术语或者部分名词解释如下:
装袋(bagging),又称自助聚集(boot strap aggregating),它是并行式集成学习算法的典型代表,用于提高弱分类器准确率的集成方法。其主要思想是根据均匀概率分布从数据集中重复抽样获得不同的子训练集,由于抽样过程是有放回的,因此一些样本可能在同一个数据集中出现多次。然后利用子训练集去训练不同的具有差异性的基学习器从而得到多个分类器,通过不同方式的组合得到最终的分类器。
根据本申请实施例,提供了一种停电预测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的停电预测方法,如图1所示,该方法包括如下步骤:
步骤S102,从第一目标区域的样本数据中提取数据,构成训练基分类器的子训练集,其中,基分类器包括:多个不同学习模型,其中,学习模型与子训练集一一对应;
步骤S104,基于学习模型对应的子训练集对学习模型进行训练,得到学习模型对应的目标学习模型;
步骤S106,基于集成学习中的投票法集成多个不同目标学习模型,得到强学习器;
步骤S108,将当前区域的目标停电数据输入至强学习器进行预测得到预测结果,其中,预测结果包括:停电或者不停电。
该停电预测方法中,从第一目标区域的样本数据中提取数据,构成训练基分类器的子训练集,其中,基分类器包括:多个不同学习模型,其中,学习模型与子训练集一一对应;基于学习模型对应的子训练集对学习模型进行训练,得到学习模型对应的目标学习模型;基于集成学习中的投票法集成多个不同目标学习模型,得到强学习器;将当前区域的目标停电数据输入至强学习器进行预测得到预测结果,其中,预测结果包括:停电或者不停电,达到了准确预测停电状况,进而可通知各个用户提前做好停电准备,积极配置备用电源目的,从而实现了准确预测停电状况,提高供电可靠性,提升用户体验的技术效果,进而解决了由于相关技术中缺乏对停电情况的预测方法造成的供电可靠性差,影响用户用电体验的技术问题。
需要说明的是,从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集,包括:基于自助聚集算法以随机有放回的方式抽取样本数据构建子训练集。还需要说明的是,学习模型包括:深度神经网络模型、XGBoost、因式分解模型。
本申请一些实施例中,从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集之前,可确定样本数据中各种类型的数据特征;基于基尼系数确定各种类型的数据特征对应的重要性分数;将重要性分数同预定阈值进行比较,确定重要性分数大于预定阈值的数据特征为目标数据特征。
需要说明的是,从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集,包括:从包括有目标数据特征的样本数据,提取数据构成子训练集。
本申请一些可选的实施例中,可确定与第一目标区域相邻的第二目标区域;构建第一目标区域与第二目标区域的关联矩阵;对关联矩阵进行QR矩阵分解,构造第一目标区域第二目标区域的空间位置特征,将空间位置特征作为数据特征对学习模型进行训练。
现结合具体的实施例,对本申请相关实施例进行说明:
本申请提出一种基于bagging集成的停电分类预测方法。首先,采用梯度下降树提取与停电问题关联度较大的特征;其次,根据不同地区的地理位置关系构造不同地区间的空间位置矩阵,并利用QR矩阵分解的方式构造空间特征;接着,利用bagging集成学习框架对数据进行随机重采样去训练不同的基分类器然后根据组合策略进行集成;最后,根据训练得到的集成模型对数据进行分类预测。其具体的技术方案包括以下几个步骤:
步骤一:特征选择
(1)为了选择合适的特征去训练模型,利用梯度下降树方法根据基尼系数计算不同特征的重要性分数,然后设定合适的阈值,根据设定的阈值选择相应的特征。
步骤二:构造空间特征
(1)为了增加有效特征,根据不同地区的地理位置关系构造不同地区间的空间位置矩阵,并利用QR矩阵分解的方式去构造空间特征。
步骤三:模型训练与预测
(1)训练基分类器:bagging方法以等概率的方式从样本数据集抽取不同的数据构成训练基分类器的子训练集,基分类器本发明选择的是深度神经网络、XGBoost以及因子分解机。因此,选择三份子训练集去分别训练深度神经网络、XGBoost和因子分解机,得到三个基分类器。
(2)模型集成与预测:根据(2)可以得到三种具有差异性的基分类器,由于三种分类器的分类性能不同,因此本发明可以通过投票模型去集成三种基分类器得到一个更强的分类器。也就是说,最终的停电预测结果是根据三个分类器中有两个或者两个以上分类器分类预测相同的结果。然后,根据集成的投票模型可以对新的停电数据进行分类预测,降低用户端的停电频率,提高低压供电可靠性。
有益效果:本申请针对停电数据的分类预测,提出了一种基于bagging集成的方法对停电数据进行分类预测。通过对收集的停电数据进行数据分析和处理进行停电发分类预测,一方面,为计划停电的安排提供依据,减少电力设备或电力系统事故对用户造成更大的影响,降低用户端的停电频率,提高低压供电可靠性。另一方面,为故障停电的提前准备提供参考,提前安排相关维修人员和涉及材料,平衡成本和速度,减少停电持续时间。还可以通过停电数据分析考虑设置合适的备用电源数目提高本地电网系统的供电可靠性。首先,为了提取出有效的特征降低数据处理的复杂度,通过GBDT对停电数据进行特征选择;其次,基于不同地区的空间位置建立位置方阵,对方阵利用QR矩阵分解构造空间位置特征;然后,使用bagging集成DNN、XGBoost、Factorization Machine构造强学习器对停电数据进行预测,提高分类预测的准确性,为电网公司的决策提供参考以及提高低压供电的可靠性。
图2是本申请一种可选的基于bagging集成的停电分类预测方法的流程示意图,如图2所示,该方法包括如下步骤:
初始训练集,进行随机有放回取样,构成三个训练数据集,分别为训练数据集1、训练数据集2以及训练数据集3,且分别基于训练数据集1、训练数据集2以及训练数据集3对深度神经网络、XGBoost以及因子分解机进行训练,最后,集成投票得到强学习器。
具体地,上述步骤包括:
1.特征选择
在进行模型训练之前,需要对样本特征进行选取。选择样本的特征时,我们需要选择适当的样本特征数量。如果选择数量过多的样本特征,其中冗余特征虽然不会对模型的性能产生影响,但是会消耗CPU的资源,并且冗余特征不会对模型训练产生更好地贡献。并且如果选择了不良特征还会降低模型的性能。如果选择数量过少的样本特征,那么数据中隐藏的信息可能会很低,其次很可能会造成模型的欠拟合。文章通过梯度提升决策树(Gradient Boosting Decision Tree)做特征选择。采用基尼系数(Gini)衡量评估不同特征的重要性,计算得到不同特征对数据集的基尼指数,基尼指数用来测量数据的不确定性或者不纯度。
假设样本数据有C个特征X1,X2,...,XC,特征Xj的基尼指数
Figure BDA0003177973970000061
表示树中第j个特征的节点分裂不纯度的平均变化量。在分类问题中,假如样本数据有K个类别,样本数据属于第k个类别的概率为pk,那么概率分布的基尼指数的计算方式如公式(1)所示:
Figure BDA0003177973970000071
其中,K表示一共有K个类别,pk表示第k个类别所占据的比例。
如果问题是二分类问题,那么样本数据属于第一个类的概率为p,那么此时的概率分布的基尼指数为:
Gini=2p(1-p) (2)
对于给定的样本数据集合D,其基尼系数为:
Figure BDA0003177973970000072
对于特征Xi的某个取值x将样本数据分成两个部分D1,D2,那么特征Xj的基尼指数
Figure BDA0003177973970000073
的计算方式为:
Figure BDA0003177973970000074
其中,Gini(D1)表示D1的Gini,Gini(D2)表示D2的Gini。
利用梯度提升决策树算法对计算不同非稀疏特征计算的重要性,根据计算出的不同非稀疏特征的重要性分数进行排序,选择对停电分类预测较为重要的特征去训练模型,提高模型的性能。
2、构造空间特征
为了增加有效特征,根据不同地区的地理位置关系构造不同地区间的空间位置矩阵,然后根据空间位置矩阵利用QR分解的方式构造空间特征。本发明认为停电情况可能存在地理位置上的相关性,也就是说如果两个区域距离比较接近,那么认为某地区停电,它的相邻的区域也有很大的可能性会停电。
接下来构造不同地区的位置关联特征。假设一共有n个区域p1,p2,…,pn,现构造一个关联矩阵An×n,如果两个区域pi,pj相邻或者有重叠的地理区域,那么对应的矩阵元素值aij为1,其它的非对角线元素值均为0。不同地区构造出来的关联矩阵An×n的形式如下所示:
Figure BDA0003177973970000081
其中,aii的值为1。aij表示地区pi和pj之间的停电关联值,两个区域相邻或者有重叠的地理区域,aij=1,否则aij=0。
显然,矩阵A的值不能直接作为停电特征。接下来需要对A做矩阵分解。文章采用QR分解的方式对矩阵A做矩阵分解。QR分解是将矩阵变成为下三角矩阵与上三角矩阵的乘积。其形式如下所示:
A=QR (6)
其中,Q为正交矩阵,R为上三角矩阵。
对于停电样本数据,每一行代表一个区域的停电情况,一共有n个区域p1,p2,…,pn。公式(6)将矩阵A分解成n×n矩阵Q与n×n矩阵R的乘积,假如样本数据的第i行是区域pi的停电情况,那么该行对应的空间位置构造特征就是矩阵L的第i行数据。通过矩阵分解的方式构造不同区域的空间位置特征,可以为模型的训练提供更多的有效特征,提高模型的分类准确度。
3、模型训练与预测
集成学习通过构建并结合多个学习器来完成学习任务,基学习器通常是利用样本数据训练现有的学习算法得到的。通过组合多个弱监督学习器得到一个更加全面的强监督学习器,其潜在思想是即便某个弱分类器得到了错误的预测,其它的弱分类器也可以将错误纠正回来。因此,集成多个基学习器比单一的基学习器具有更大的泛化能力,并且分类预测的效果会优于单一学习器。
假设给定输入样本数据集为X={x1,x2,…,xn},输出样本集为Y={y1,y2,…,yn},采用bagging算法从中随机采样T次,构成训练集D={D1,D2,…,Dn},每次取k个样本,采用基学习器对新的训练集进行训练,得到k个子模型,在通过指定的策略对子模型进行融合,对于本发明采用投票的方式进去融合深度神经网络、XGBoost、因子分解机三种模型。
3.1深度神经网络
神经网络是基于感知机的扩展,深度神经网络是有很多层隐藏层的神经网络。深度神经网络按照不同层的位置划分,DNN的内部的神经网络层可以分为三类,输入层,隐藏层和输出层。一般来说第一层是输入层,最后一层是输出层,中间层都是隐藏层。层与层之间全连接的。也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。这样的话,网络单元间的每一条链路都是可学习训练的因果链。如果使用相同的网格单元,DNN有着远超浅层网络的表达能力,对于复杂问题的处理能力更强。
模型训练的过程包括前向传播和后向传播两个过程。前向传播的过程是构建出多个权重系数矩阵W和偏置向量b。将停电相关数据作为输入数据,逐层向后与各层的权重矩阵和偏置向量进行线性运算和激活运算。假设第l层有nl个神经元,输入组成的向量为zl,输出组成的向量为hl,根据深度神经网络的计算规则有:
zl=Wlzl-1+bl l=1,2,…,L
hl==fl(zl) (7)
其中,Wl为第l-1到第l层的权重矩阵,bl为第l层的偏置向量,fl表示第l层的偏置向量的激活函数。隐藏层激活函数选用ReLU函数,输出层激活函数选用softmax函数。
然后使用反向传播调整参数,使得计算的输出尽可能接近真实的样本输出。在进行反向传播算法前先确定损失函数。文章选取交叉熵误差作为损失函数,函数形式如下:
Figure BDA0003177973970000091
其中,T是分类数,y是实际的样本值,
Figure BDA0003177973970000092
是预测的样本值。
接着利用梯度下降的方法对损失函数求最小值,通过对目标函数的各个参数求偏导数,迭代更新每一层的参数权重系数矩阵W和偏置向量b,最后得到最优的网络参数。
3.2 XGBoost
XGBoost是由多颗CART决策树构成的,每生成一棵树就是在学习一个新的函数,这个函数映射到唯一确定的叶子节点中去,同一个叶子节点中所有的样本共享相同的预测值。函数的目标是拟合所有的决策树预测值和的历史残差。每颗决策树预测的真实值与之前所有的决策树预测值之和作为最终的结果。
对于分类问题采用sigmod函数来解决二分类问题。先通过归属对样本进行预测,得到每棵树的预测结果,然后将其进行累加求和,最后通过sigmod函数将其映射到0-1的区间代表二分类的概率。
XGBoost的目标函数如下所示:
Figure BDA0003177973970000101
其中,第一项是损失函数,第二项是正则化损失,采用的损失函数为对数,损失函数的表达式如下所示:
Figure BDA0003177973970000102
模型加入正则化项可以控制模型的复杂程度,防止模型过拟合,其值越小,泛化能力就越强。正则项的表达式如下所示:
Figure BDA0003177973970000103
其中,T表示树中叶子的个数,w表示树上叶子节点的权重得分,γ,λ是模型的参数。
接下来对公式(9)进行二阶泰勒展开,这有利于梯度下降的更快更准。二阶泰勒展开后的表达式如下所示:
Figure BDA0003177973970000104
其中,C是常数项,gi和hi是一次项和二次项的系数,其表达式如下所示:
Figure BDA0003177973970000105
Figure BDA0003177973970000106
将公式(11)的正则化项带入到公式(13)进行合并然后化简,得到的表达式如下:
Figure BDA0003177973970000111
根据公式(14)可以发现,函数是关于叶子结点权重分数wj的二次函数,通过近似和化简就很容易求得函数的最值,函数的最值点和最值分别为:
Figure BDA0003177973970000112
Figure BDA0003177973970000113
3.3 Factorization Machine
Factorization Machine(FM)是一种基于矩阵分解的机器学习算法,由Rendle首次提出。FM综合了支持向量机和矩阵分解的优点,是利用分解参数对变量之间的交互去建立模型。这意味着即使在具有稀疏性的问题中也可以估计交互,也就是说适用于稀疏特征。FM的输入是实数型特征,其学习方法和线性回归以及支持向量机类似,内部使用了变量之间的分解交互,并且模拟所有变量交互,使用的是分解参数化而不像支持向量机那样的密集参数化。对于停电数据中存在大量的稀疏特征,譬如月份、年份、周等,因此FM可以用来对停电情况做分类预测。此外,FM的模型方程可以在线性的时间内计算,这也意味着FM模型的预测时间是线性的。
FM能够通过使用因子分解模型来建模不同特征之间的交互。也就是说FM能模型考虑到了不同特征之间的关联关系。通过引入两个向量的内积取代了单一的权重系数。具体地说,FM为每个特征学习了一个隐权重向量,在进行不同特征之间的特征交叉时,使用两个特征隐向量作为交叉特征的权重。对于二阶交叉的FM的模型方程如下所示:
Figure BDA0003177973970000114
其中,y表示的是预测值,x∈Rn表示模型方程的输入向量,xi表示向量x的第i个元素。w0∈R表示全局的偏差。w∈Rn表示输入向量x的权重向量。V∈Rn×k是潜在的特征矩阵,用来表示第i个变量和第j个变量之间的交叉项。vi表示xi的特征向量。<vi,vj>表示向量的内积,用于建模xi和xj的相互交叉。
接下来对公式(16)进行优化,降低模型方程的时间复杂度,优化后的表达式如下所示:
Figure BDA0003177973970000121
经过优化模型的时间复杂度由O(kn2)降到O(kn),模型的时间复杂度与潜在特征的维数和特征是线性相关的。
对于停电的分类预测属于二分类问题,文章采用logit loss函数作为FM模型的损失函数,为找到防止FM模型过拟合,引入L2-范数正则化的优化技术。最终模型的目标函数表达式如下所示:
Figure BDA0003177973970000122
接着,通过随机梯度下降的方法训练FM模型。随机梯度下降是沿着不断地沿着目标函数的梯度的反方向去寻找损失函数值最小的参数。
3.4模型集成与预测
Bagging方法以等概率的方式从样本数据集抽取不同的数据构成训练基分类器的子训练集,基分类器本发明选择的是深度神经网络、XGBoost以及因子分解机。因此,选择三份子训练集去分别训练深度神经网络、XGBoost和因子分解机,得到三个基分类器。
由于三种分类器的分类性能不同,因此本发明可以通过投票模型去集成三种基分类器得到一个更强的分类器。也就是说,最终的停电预测结果是根据三个分类器中有两个或者两个以上分类器分类预测相同的结果。然后,根据集成的投票模型可以对新的停电数据进行分类预测,降低用户端的停电频率,提高低压供电可靠性。
图3根据本申请实施例的一种停电预测装置,如图3所示,该装置包括:
提取模块40,用于从第一目标区域的样本数据中提取数据,构成训练基分类器的子训练集,其中,基分类器包括:多个不同学习模型,其中,学习模型与子训练集一一对应;
训练模块42,用于基于学习模型对应的子训练集对学习模型进行训练,得到学习模型对应的目标学习模型;
集成模块44,用于基于集成学习中的投票法集成多个不同目标学习模型,得到强学习器;
预测模块46,用于将当前区域的目标停电数据输入至强学习器进行预测得到预测结果,其中,预测结果包括:停电或者不停电。
该停电预测装置中,提取模块40,用于从第一目标区域的样本数据中提取数据,构成训练基分类器的子训练集,其中,基分类器包括:多个不同学习模型,其中,学习模型与子训练集一一对应;训练模块42,用于基于学习模型对应的子训练集对学习模型进行训练,得到学习模型对应的目标学习模型;集成模块44,用于基于集成学习中的投票法集成多个不同目标学习模型,得到强学习器;预测模块46,用于将当前区域的目标停电数据输入至强学习器进行预测得到预测结果,其中,预测结果包括:停电或者不停电,达到了准确预测停电状况,进而可通知各个用户提前做好停电准备,积极配置备用电源目的,从而实现了准确预测停电状况,提高供电可靠性,提升用户体验的技术效果,进而解决了由于相关技术中缺乏对停电情况的预测方法造成的供电可靠性差,影响用户用电体验的技术问题。
可选地,提取模块,包括:提取单元,用于基于自助聚集算法以随机有放回的方式抽取样本数据构建子训练集。
根据本申请实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行任意一种停电预测方法。
具体地,上述存储介质用于存储执行以下功能的程序指令,实现以下功能:
从第一目标区域的样本数据中提取数据,构成训练基分类器的子训练集,其中,基分类器包括:多个不同学习模型,其中,学习模型与子训练集一一对应;基于学习模型对应的子训练集对学习模型进行训练,得到学习模型对应的目标学习模型;基于集成学习中的投票法集成多个不同目标学习模型,得到强学习器;将当前区域的目标停电数据输入至强学习器进行预测得到预测结果,其中,预测结果包括:停电或者不停电。
根据本申请实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行任意一种停电预测方法。
具体地,上述处理器用于调用存储器中的程序指令,实现以下功能:
从第一目标区域的样本数据中提取数据,构成训练基分类器的子训练集,其中,基分类器包括:多个不同学习模型,其中,学习模型与子训练集一一对应;基于学习模型对应的子训练集对学习模型进行训练,得到学习模型对应的目标学习模型;基于集成学习中的投票法集成多个不同目标学习模型,得到强学习器;将当前区域的目标停电数据输入至强学习器进行预测得到预测结果,其中,预测结果包括:停电或者不停电。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (8)

1.一种停电预测方法,其特征在于,包括:
从第一目标区域的样本数据中提取数据,构成训练基分类器的子训练集,其中,所述基分类器包括:多个不同学习模型,其中,所述学习模型与所述子训练集一一对应;
基于所述学习模型对应的子训练集对所述学习模型进行训练,得到所述学习模型对应的目标学习模型,所述学习模型包括:深度神经网络模型、XGBoost、因式分解模型;
基于集成学习中的投票法集成多个不同所述目标学习模型,得到强学习器;
将当前区域的目标停电数据输入至所述强学习器进行预测得到预测结果,其中,所述预测结果包括:停电或者不停电;
还包括:确定与所述第一目标区域相邻的第二目标区域;构建所述第一目标区域与所述第二目标区域的关联矩阵;对所述关联矩阵进行QR矩阵分解,构造所述第一目标区域所述第二目标区域的空间位置特征,将所述空间位置特征作为数据特征对所述学习模型进行训练。
2.根据权利要求1所述的方法,其特征在于,从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集,包括:
基于自助聚集算法以随机有放回的方式抽取所述样本数据构建所述子训练集。
3.根据权利要求1所述的方法,其特征在于,从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集之前,还包括:
确定样本数据中各种类型的数据特征;
基于基尼系数确定所述各种类型的数据特征对应的重要性分数;
将所述重要性分数同预定阈值进行比较,确定所述重要性分数大于所述预定阈值的数据特征为目标数据特征。
4.根据权利要求3所述的方法,其特征在于,从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集,包括:
基于预定规则从包括有所述目标数据特征的样本数据,提取数据构成所述子训练集。
5.一种停电预测装置,其特征在于,包括:
提取模块,用于从第一目标区域的样本数据中提取数据,构成训练基分类器的子训练集,其中,所述基分类器包括:多个不同学习模型,其中,所述学习模型与所述子训练集一一对应;
训练模块,用于基于所述学习模型对应的子训练集对所述学习模型进行训练,得到所述学习模型对应的目标学习模型,所述学习模型包括:深度神经网络模型、XGBoost、因式分解模型;
集成模块,用于基于集成学习中的投票法集成多个不同所述目标学习模型,得到强学习器;
预测模块,用于将当前区域的目标停电数据输入至所述强学习器进行预测得到预测结果,其中,所述预测结果包括:停电或者不停电;
还包括:确定与所述第一目标区域相邻的第二目标区域;构建所述第一目标区域与所述第二目标区域的关联矩阵;对所述关联矩阵进行QR矩阵分解,构造所述第一目标区域所述第二目标区域的空间位置特征,将所述空间位置特征作为数据特征对所述学习模型进行训练。
6.根据权利要求5所述的装置,其特征在于,所述提取模块,包括:
提取单元,用于基于自助聚集算法以随机有放回的方式抽取所述样本数据构建所述子训练集。
7.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至4中任意一项所述停电预测方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至4中任意一项所述停电预测方法。
CN202110838392.9A 2021-07-23 2021-07-23 停电预测方法 Active CN113537607B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110838392.9A CN113537607B (zh) 2021-07-23 2021-07-23 停电预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110838392.9A CN113537607B (zh) 2021-07-23 2021-07-23 停电预测方法

Publications (2)

Publication Number Publication Date
CN113537607A CN113537607A (zh) 2021-10-22
CN113537607B true CN113537607B (zh) 2022-08-05

Family

ID=78088840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110838392.9A Active CN113537607B (zh) 2021-07-23 2021-07-23 停电预测方法

Country Status (1)

Country Link
CN (1) CN113537607B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330935B (zh) * 2022-03-10 2022-07-29 南方电网数字电网研究院有限公司 基于多种结合策略集成学习的新能源功率预测方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948913A (zh) * 2019-03-01 2019-06-28 长沙理工大学 一种基于双层的xgboost算法的多源特征电力用户综合画像系统
CN111027629A (zh) * 2019-12-13 2020-04-17 国网山东省电力公司莱芜供电公司 基于改进随机森林的配电网故障停电率预测方法及系统
CN111178675A (zh) * 2019-12-05 2020-05-19 佰聆数据股份有限公司 基于LR-Bagging算法的电费回收风险预测方法、系统、存储介质及计算机设备
CN112766550A (zh) * 2021-01-08 2021-05-07 佰聆数据股份有限公司 基于随机森林的停电敏感用户预测方法、系统、存储介质及计算机设备
CN113111955A (zh) * 2021-04-21 2021-07-13 国网上海市电力公司 一种线损异常数据专家系统及检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11545829B2 (en) * 2018-07-31 2023-01-03 Honda Motor Co., Ltd. Power prediction system, power prediction device, power prediction method, program, and storage medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948913A (zh) * 2019-03-01 2019-06-28 长沙理工大学 一种基于双层的xgboost算法的多源特征电力用户综合画像系统
CN111178675A (zh) * 2019-12-05 2020-05-19 佰聆数据股份有限公司 基于LR-Bagging算法的电费回收风险预测方法、系统、存储介质及计算机设备
CN111027629A (zh) * 2019-12-13 2020-04-17 国网山东省电力公司莱芜供电公司 基于改进随机森林的配电网故障停电率预测方法及系统
CN112766550A (zh) * 2021-01-08 2021-05-07 佰聆数据股份有限公司 基于随机森林的停电敏感用户预测方法、系统、存储介质及计算机设备
CN113111955A (zh) * 2021-04-21 2021-07-13 国网上海市电力公司 一种线损异常数据专家系统及检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Prediction of breakdowns in smart grids: a novel;Abderrazak Khediri;《ICCES "17: Proceedings of the International Conference on Computing for Engineering and Sciences》;20170722;全文 *
台风灾害下用户停电区域预测及评估;候慧 等;《电网技术》;20190416;全文 *
基于天气因素的配电网故障停电风险预测研究;李小玉 等;《河北电力技术》;20210425;全文 *
计及天气因素相关性的配电网故障风险等级预测方法;张稳 等;《电网技术》;20180805;全文 *

Also Published As

Publication number Publication date
CN113537607A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN113962364B (zh) 一种基于深度学习的多因素用电负荷预测方法
Dong et al. Hourly energy consumption prediction of an office building based on ensemble learning and energy consumption pattern classification
Hafeez et al. Electric load forecasting based on deep learning and optimized by heuristic algorithm in smart grid
Straka et al. Predicting popularity of electric vehicle charging infrastructure in urban context
Yu et al. Prediction of highway tunnel pavement performance based on digital twin and multiple time series stacking
Chen et al. Short-term load forecasting and associated weather variables prediction using ResNet-LSTM based deep learning
Jurado et al. Fuzzy inductive reasoning forecasting strategies able to cope with missing data: A smart grid application
Prauzek et al. Differential evolution of fuzzy controller for environmentally-powered wireless sensors
Ajitha et al. Design and development of Residential Sector Load Prediction model during COVID-19 Pandemic using LSTM based RNN
CN113449919B (zh) 一种基于特征和趋势感知的用电量预测方法及系统
CN114528949A (zh) 一种基于参数优化的电能计量异常数据的识别与补偿方法
Jeyaraj et al. Computer‐assisted demand‐side energy management in residential smart grid employing novel pooling deep learning algorithm
CN118484666B (zh) 面向源网荷多元应用的储能电站评估方法及系统
CN112949207A (zh) 一种基于改进最小二乘支持向量机的短期负荷预测方法
CN118211779A (zh) 一种智慧安防综合管理平台
CN113298318A (zh) 一种新型的配电变压器重过载预测方法
CN113537607B (zh) 停电预测方法
CN111784019A (zh) 电力负荷处理方法和装置
Flesca et al. On forecasting non-renewable energy production with uncertainty quantification: A case study of the Italian energy market
Liao et al. Integration of multi-technology on oil spill emergency preparedness
CN115456073B (zh) 基于长短期记忆的生成式对抗网络模型建模分析方法
CN112256735B (zh) 一种用电监测方法、装置、计算机设备和存储介质
Wang et al. Load forecasting method based on CNN and extended LSTM
Wang et al. Optimization of Convolutional Long Short-Term Memory Hybrid Neural Network Model Based on Genetic Algorithm for Weather Prediction
Dewangan et al. Load Forecasting Models in Smart Grid Using Smart Meter Information: A Review. Energies 2023, 16, 1404

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant