CN113537607B

CN113537607B - 停电预测方法

Info

Publication number: CN113537607B
Application number: CN202110838392.9A
Authority: CN
Inventors: 马晓琴; 薛晓慧; 罗红郊; 孟祥甫; 郭小鹤; 马占海; 薛峪峰; 雷晓萍; 佟芳; 张俊超; 严嘉正; 杨军; 张启君
Original assignee: State Grid Corp of China SGCC; State Grid Qinghai Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Qinghai Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2022-08-05
Anticipated expiration: 2041-07-23
Also published as: CN113537607A

Abstract

本申请公开了一种停电预测方法。其中，该方法包括：从第一目标区域的样本数据中提取数据，构成训练基分类器的子训练集，其中，基分类器包括：多个不同学习模型，其中，学习模型与子训练集一一对应；基于学习模型对应的子训练集对学习模型进行训练，得到学习模型对应的目标学习模型；基于集成学习中的投票法集成多个不同目标学习模型，得到强学习器；将当前区域的目标停电数据输入至强学习器进行预测得到预测结果，其中，预测结果包括：停电或者不停电。本申请解决了由于相关技术中缺乏对停电情况的预测方法造成的供电可靠性差，影响用户用电体验的技术问题。

Description

停电预测方法

技术领域

本申请涉及电力领域，具体而言，涉及一种停电预测方法。

背景技术

电力供应的可靠性对于社会的运转起着重要的作用，当今社会的很多方面都需要用到电力资源，电网配套设施被认为是当今社会的重要设施。由于电力供应在社会的运转中占据重要的地位，因此，停电会对社会造成较大的负面影响，停电事件对国民经济造成的损失远超过电力系统本身的损失。

随着智能电网的快速建设,在生产经营活动中,电网公司积累大量停电业务数据。利用数据挖掘、机器学习等技术对电力方面的停电数据进行分析和处理，能够挖掘出停电数据中潜在的有用信息，提升数据价值，可以更好地了解到电网的运行状态，对于电力公司实现可靠、安全的供电起到有益作用。

分类预测是数据分析与挖掘中较为常见的技术之一，通过对历史的停电数据进行分析，根据分析得到的规律进行停电数据进行分类预测，这可以为电网公司、与电力有关的其它公司、单位提前做好计划停电和故障停电的规划安排提供决策参考。一方面，为计划停电的安排提供依据，减少电力设备或电力系统事故对用户造成更大的影响，降低用户端的停电频率，提高低压供电可靠性。另一方面，为故障停电的提前准备提供参考，提前安排相关维修人员和涉及材料，平衡成本和速度，减少停电持续时间。还可以通过停电数据分析考虑设置合适的备用电源数目提高本地电网系统的供电可靠性。但相关技术中，缺乏对停电情况预测方法，因此，往往会导致供电可靠性较差，影响用户的用电体验以及会造成重大经济损失。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种停电预测方法，以至少解决由于相关技术中缺乏对停电情况的预测方法造成的供电可靠性差，影响用户用电体验的技术问题。

根据本申请实施例的一个方面，提供了一种停电预测方法，包括：从第一目标区域的样本数据中提取数据，构成训练基分类器的子训练集，其中，基分类器包括：多个不同学习模型，其中，学习模型与子训练集一一对应；基于学习模型对应的子训练集对学习模型进行训练，得到学习模型对应的目标学习模型；基于集成学习中的投票法集成多个不同目标学习模型，得到强学习器；将当前区域的目标停电数据输入至强学习器进行预测得到预测结果，其中，预测结果包括：停电或者不停电。

可选的，从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集，包括：基于自助聚集算法以随机有放回的方式抽取样本数据构建子训练集。

可选地，学习模型包括：深度神经网络模型、XGBoost、因式分解模型。

可选地，从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集之前，还包括：确定样本数据中各种类型的数据特征；基于基尼系数确定各种类型的数据特征对应的重要性分数；将重要性分数同预定阈值进行比较，确定重要性分数大于预定阈值的数据特征为目标数据特征。

可选地，从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集，包括：从包括有目标数据特征的样本数据，提取数据构成子训练集。

可选地，该方法还包括：确定与第一目标区域相邻的第二目标区域；构建第一目标区域与第二目标区域的关联矩阵；对关联矩阵进行QR矩阵分解，构造第一目标区域第二目标区域的空间位置特征，将空间位置特征作为数据特征对学习模型进行训练。

根据本申请实施例的另一方面，还提供了一种停电预测装置，包括：提取模块，用于从第一目标区域的样本数据中提取数据，构成训练基分类器的子训练集，其中，基分类器包括：多个不同学习模型，其中，学习模型与子训练集一一对应；训练模块，用于基于学习模型对应的子训练集对学习模型进行训练，得到学习模型对应的目标学习模型；集成模块，用于基于集成学习中的投票法集成多个不同目标学习模型，得到强学习器；预测模块，用于将当前区域的目标停电数据输入至强学习器进行预测得到预测结果，其中，预测结果包括：停电或者不停电。

可选地，提取模块，包括：提取单元，用于基于自助聚集算法以随机有放回的方式抽取样本数据构建子训练集。

根据本申请实施例的另一方面，还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行任意一种停电预测方法。

根据本申请实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行任意一种停电预测方法。

在本申请实施例中，采用强学习器对停电状况进行预测的方式，通过从第一目标区域的样本数据中提取数据，构成训练基分类器的子训练集，其中，基分类器包括：多个不同学习模型，其中，学习模型与子训练集一一对应；基于学习模型对应的子训练集对学习模型进行训练，得到学习模型对应的目标学习模型；基于集成学习中的投票法集成多个不同目标学习模型，得到强学习器；将当前区域的目标停电数据输入至强学习器进行预测得到预测结果，其中，预测结果包括：停电或者不停电，达到了准确预测停电状况，进而可通知各个用户提前做好停电准备，积极配置备用电源目的，从而实现了准确预测停电状况，提高供电可靠性，提升用户体验的技术效果，进而解决了由于相关技术中缺乏对停电情况的预测方法造成的供电可靠性差，影响用户用电体验的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的停电预测方法的流程示意图；

图2是根据本申请一种可选的基于bagging集成的停电分类预测方法的流程示意图；

图3根据本申请实施例的一种可选的停电预测装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于本领域技术人员更好的理解本申请相关实施例，现将本申请相关实施例可能技术术语或者部分名词解释如下：

装袋(bagging)，又称自助聚集(boot strap aggregating)，它是并行式集成学习算法的典型代表，用于提高弱分类器准确率的集成方法。其主要思想是根据均匀概率分布从数据集中重复抽样获得不同的子训练集，由于抽样过程是有放回的，因此一些样本可能在同一个数据集中出现多次。然后利用子训练集去训练不同的具有差异性的基学习器从而得到多个分类器，通过不同方式的组合得到最终的分类器。

根据本申请实施例，提供了一种停电预测方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的停电预测方法，如图1所示，该方法包括如下步骤：

步骤S102，从第一目标区域的样本数据中提取数据，构成训练基分类器的子训练集，其中，基分类器包括：多个不同学习模型，其中，学习模型与子训练集一一对应；

步骤S104，基于学习模型对应的子训练集对学习模型进行训练，得到学习模型对应的目标学习模型；

步骤S106，基于集成学习中的投票法集成多个不同目标学习模型，得到强学习器；

步骤S108，将当前区域的目标停电数据输入至强学习器进行预测得到预测结果，其中，预测结果包括：停电或者不停电。

该停电预测方法中，从第一目标区域的样本数据中提取数据，构成训练基分类器的子训练集，其中，基分类器包括：多个不同学习模型，其中，学习模型与子训练集一一对应；基于学习模型对应的子训练集对学习模型进行训练，得到学习模型对应的目标学习模型；基于集成学习中的投票法集成多个不同目标学习模型，得到强学习器；将当前区域的目标停电数据输入至强学习器进行预测得到预测结果，其中，预测结果包括：停电或者不停电，达到了准确预测停电状况，进而可通知各个用户提前做好停电准备，积极配置备用电源目的，从而实现了准确预测停电状况，提高供电可靠性，提升用户体验的技术效果，进而解决了由于相关技术中缺乏对停电情况的预测方法造成的供电可靠性差，影响用户用电体验的技术问题。

需要说明的是，从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集，包括：基于自助聚集算法以随机有放回的方式抽取样本数据构建子训练集。还需要说明的是，学习模型包括：深度神经网络模型、XGBoost、因式分解模型。

本申请一些实施例中，从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集之前，可确定样本数据中各种类型的数据特征；基于基尼系数确定各种类型的数据特征对应的重要性分数；将重要性分数同预定阈值进行比较，确定重要性分数大于预定阈值的数据特征为目标数据特征。

需要说明的是，从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集，包括：从包括有目标数据特征的样本数据，提取数据构成子训练集。

本申请一些可选的实施例中，可确定与第一目标区域相邻的第二目标区域；构建第一目标区域与第二目标区域的关联矩阵；对关联矩阵进行QR矩阵分解，构造第一目标区域第二目标区域的空间位置特征，将空间位置特征作为数据特征对学习模型进行训练。

现结合具体的实施例，对本申请相关实施例进行说明：

本申请提出一种基于bagging集成的停电分类预测方法。首先，采用梯度下降树提取与停电问题关联度较大的特征；其次，根据不同地区的地理位置关系构造不同地区间的空间位置矩阵，并利用QR矩阵分解的方式构造空间特征；接着，利用bagging集成学习框架对数据进行随机重采样去训练不同的基分类器然后根据组合策略进行集成；最后，根据训练得到的集成模型对数据进行分类预测。其具体的技术方案包括以下几个步骤：

步骤一：特征选择

(1)为了选择合适的特征去训练模型，利用梯度下降树方法根据基尼系数计算不同特征的重要性分数，然后设定合适的阈值，根据设定的阈值选择相应的特征。

步骤二：构造空间特征

(1)为了增加有效特征，根据不同地区的地理位置关系构造不同地区间的空间位置矩阵，并利用QR矩阵分解的方式去构造空间特征。

步骤三：模型训练与预测

(1)训练基分类器：bagging方法以等概率的方式从样本数据集抽取不同的数据构成训练基分类器的子训练集，基分类器本发明选择的是深度神经网络、XGBoost以及因子分解机。因此，选择三份子训练集去分别训练深度神经网络、XGBoost和因子分解机，得到三个基分类器。

(2)模型集成与预测：根据(2)可以得到三种具有差异性的基分类器，由于三种分类器的分类性能不同，因此本发明可以通过投票模型去集成三种基分类器得到一个更强的分类器。也就是说，最终的停电预测结果是根据三个分类器中有两个或者两个以上分类器分类预测相同的结果。然后，根据集成的投票模型可以对新的停电数据进行分类预测，降低用户端的停电频率，提高低压供电可靠性。

有益效果：本申请针对停电数据的分类预测，提出了一种基于bagging集成的方法对停电数据进行分类预测。通过对收集的停电数据进行数据分析和处理进行停电发分类预测，一方面，为计划停电的安排提供依据，减少电力设备或电力系统事故对用户造成更大的影响，降低用户端的停电频率，提高低压供电可靠性。另一方面，为故障停电的提前准备提供参考，提前安排相关维修人员和涉及材料，平衡成本和速度，减少停电持续时间。还可以通过停电数据分析考虑设置合适的备用电源数目提高本地电网系统的供电可靠性。首先，为了提取出有效的特征降低数据处理的复杂度，通过GBDT对停电数据进行特征选择；其次，基于不同地区的空间位置建立位置方阵，对方阵利用QR矩阵分解构造空间位置特征；然后，使用bagging集成DNN、XGBoost、Factorization Machine构造强学习器对停电数据进行预测，提高分类预测的准确性，为电网公司的决策提供参考以及提高低压供电的可靠性。

图2是本申请一种可选的基于bagging集成的停电分类预测方法的流程示意图，如图2所示，该方法包括如下步骤：

初始训练集，进行随机有放回取样，构成三个训练数据集，分别为训练数据集1、训练数据集2以及训练数据集3，且分别基于训练数据集1、训练数据集2以及训练数据集3对深度神经网络、XGBoost以及因子分解机进行训练，最后，集成投票得到强学习器。

具体地，上述步骤包括：

1.特征选择

在进行模型训练之前，需要对样本特征进行选取。选择样本的特征时，我们需要选择适当的样本特征数量。如果选择数量过多的样本特征，其中冗余特征虽然不会对模型的性能产生影响，但是会消耗CPU的资源，并且冗余特征不会对模型训练产生更好地贡献。并且如果选择了不良特征还会降低模型的性能。如果选择数量过少的样本特征，那么数据中隐藏的信息可能会很低，其次很可能会造成模型的欠拟合。文章通过梯度提升决策树(Gradient Boosting Decision Tree)做特征选择。采用基尼系数(Gini)衡量评估不同特征的重要性，计算得到不同特征对数据集的基尼指数，基尼指数用来测量数据的不确定性或者不纯度。

假设样本数据有C个特征X₁,X₂,...,X_C，特征X_j的基尼指数

表示树中第j个特征的节点分裂不纯度的平均变化量。在分类问题中，假如样本数据有K个类别，样本数据属于第k个类别的概率为p_k，那么概率分布的基尼指数的计算方式如公式(1)所示：

其中，K表示一共有K个类别，p_k表示第k个类别所占据的比例。

如果问题是二分类问题，那么样本数据属于第一个类的概率为p，那么此时的概率分布的基尼指数为：

Gini＝2p(1-p) (2)

对于给定的样本数据集合D，其基尼系数为：

对于特征X_i的某个取值x将样本数据分成两个部分D₁,D₂，那么特征X_j的基尼指数

的计算方式为：

其中，Gini(D₁)表示D₁的Gini，Gini(D₂)表示D₂的Gini。

利用梯度提升决策树算法对计算不同非稀疏特征计算的重要性，根据计算出的不同非稀疏特征的重要性分数进行排序，选择对停电分类预测较为重要的特征去训练模型，提高模型的性能。

2、构造空间特征

为了增加有效特征，根据不同地区的地理位置关系构造不同地区间的空间位置矩阵，然后根据空间位置矩阵利用QR分解的方式构造空间特征。本发明认为停电情况可能存在地理位置上的相关性，也就是说如果两个区域距离比较接近，那么认为某地区停电，它的相邻的区域也有很大的可能性会停电。

接下来构造不同地区的位置关联特征。假设一共有n个区域p₁,p₂,…,p_n，现构造一个关联矩阵A^n×n，如果两个区域p_i,p_j相邻或者有重叠的地理区域，那么对应的矩阵元素值a_ij为1，其它的非对角线元素值均为0。不同地区构造出来的关联矩阵A^n×n的形式如下所示：

其中，a_ii的值为1。a_ij表示地区p_i和p_j之间的停电关联值，两个区域相邻或者有重叠的地理区域，a_ij＝1，否则a_ij＝0。

显然，矩阵A的值不能直接作为停电特征。接下来需要对A做矩阵分解。文章采用QR分解的方式对矩阵A做矩阵分解。QR分解是将矩阵变成为下三角矩阵与上三角矩阵的乘积。其形式如下所示：

A＝QR (6)

其中，Q为正交矩阵，R为上三角矩阵。

对于停电样本数据，每一行代表一个区域的停电情况，一共有n个区域p₁,p₂,…,p_n。公式(6)将矩阵A分解成n×n矩阵Q与n×n矩阵R的乘积，假如样本数据的第i行是区域pi的停电情况，那么该行对应的空间位置构造特征就是矩阵L的第i行数据。通过矩阵分解的方式构造不同区域的空间位置特征，可以为模型的训练提供更多的有效特征，提高模型的分类准确度。

3、模型训练与预测

集成学习通过构建并结合多个学习器来完成学习任务，基学习器通常是利用样本数据训练现有的学习算法得到的。通过组合多个弱监督学习器得到一个更加全面的强监督学习器，其潜在思想是即便某个弱分类器得到了错误的预测，其它的弱分类器也可以将错误纠正回来。因此，集成多个基学习器比单一的基学习器具有更大的泛化能力，并且分类预测的效果会优于单一学习器。

假设给定输入样本数据集为X＝{x₁,x₂,…,x_n}，输出样本集为Y＝{y₁,y₂,…,y_n}，采用bagging算法从中随机采样T次，构成训练集D＝{D₁,D₂,…,D_n}，每次取k个样本，采用基学习器对新的训练集进行训练，得到k个子模型，在通过指定的策略对子模型进行融合，对于本发明采用投票的方式进去融合深度神经网络、XGBoost、因子分解机三种模型。

3.1深度神经网络

神经网络是基于感知机的扩展，深度神经网络是有很多层隐藏层的神经网络。深度神经网络按照不同层的位置划分，DNN的内部的神经网络层可以分为三类，输入层，隐藏层和输出层。一般来说第一层是输入层，最后一层是输出层，中间层都是隐藏层。层与层之间全连接的。也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。这样的话，网络单元间的每一条链路都是可学习训练的因果链。如果使用相同的网格单元，DNN有着远超浅层网络的表达能力，对于复杂问题的处理能力更强。

模型训练的过程包括前向传播和后向传播两个过程。前向传播的过程是构建出多个权重系数矩阵W和偏置向量b。将停电相关数据作为输入数据，逐层向后与各层的权重矩阵和偏置向量进行线性运算和激活运算。假设第l层有n^l个神经元，输入组成的向量为z^l，输出组成的向量为h^l，根据深度神经网络的计算规则有：

z^l＝W^lz^l-1+b^l l＝1,2,…,L

h^l＝＝f_l(z^l) (7)

其中，W^l为第l-1到第l层的权重矩阵，b^l为第l层的偏置向量，f_l表示第l层的偏置向量的激活函数。隐藏层激活函数选用ReLU函数，输出层激活函数选用softmax函数。

然后使用反向传播调整参数，使得计算的输出尽可能接近真实的样本输出。在进行反向传播算法前先确定损失函数。文章选取交叉熵误差作为损失函数，函数形式如下：

其中，T是分类数，y是实际的样本值，

是预测的样本值。

接着利用梯度下降的方法对损失函数求最小值，通过对目标函数的各个参数求偏导数，迭代更新每一层的参数权重系数矩阵W和偏置向量b，最后得到最优的网络参数。

3.2 XGBoost

XGBoost是由多颗CART决策树构成的，每生成一棵树就是在学习一个新的函数，这个函数映射到唯一确定的叶子节点中去，同一个叶子节点中所有的样本共享相同的预测值。函数的目标是拟合所有的决策树预测值和的历史残差。每颗决策树预测的真实值与之前所有的决策树预测值之和作为最终的结果。

对于分类问题采用sigmod函数来解决二分类问题。先通过归属对样本进行预测，得到每棵树的预测结果，然后将其进行累加求和，最后通过sigmod函数将其映射到0-1的区间代表二分类的概率。

XGBoost的目标函数如下所示：

其中，第一项是损失函数，第二项是正则化损失，采用的损失函数为对数，损失函数的表达式如下所示：

模型加入正则化项可以控制模型的复杂程度，防止模型过拟合，其值越小，泛化能力就越强。正则项的表达式如下所示：

其中，T表示树中叶子的个数，w表示树上叶子节点的权重得分，γ,λ是模型的参数。

接下来对公式(9)进行二阶泰勒展开，这有利于梯度下降的更快更准。二阶泰勒展开后的表达式如下所示：

其中，C是常数项，g_i和h_i是一次项和二次项的系数，其表达式如下所示：

将公式(11)的正则化项带入到公式(13)进行合并然后化简，得到的表达式如下：

根据公式(14)可以发现，函数是关于叶子结点权重分数w_j的二次函数，通过近似和化简就很容易求得函数的最值，函数的最值点和最值分别为：

3.3 Factorization Machine

Factorization Machine(FM)是一种基于矩阵分解的机器学习算法，由Rendle首次提出。FM综合了支持向量机和矩阵分解的优点，是利用分解参数对变量之间的交互去建立模型。这意味着即使在具有稀疏性的问题中也可以估计交互，也就是说适用于稀疏特征。FM的输入是实数型特征，其学习方法和线性回归以及支持向量机类似，内部使用了变量之间的分解交互，并且模拟所有变量交互，使用的是分解参数化而不像支持向量机那样的密集参数化。对于停电数据中存在大量的稀疏特征，譬如月份、年份、周等，因此FM可以用来对停电情况做分类预测。此外，FM的模型方程可以在线性的时间内计算，这也意味着FM模型的预测时间是线性的。

FM能够通过使用因子分解模型来建模不同特征之间的交互。也就是说FM能模型考虑到了不同特征之间的关联关系。通过引入两个向量的内积取代了单一的权重系数。具体地说，FM为每个特征学习了一个隐权重向量，在进行不同特征之间的特征交叉时，使用两个特征隐向量作为交叉特征的权重。对于二阶交叉的FM的模型方程如下所示：

其中，y表示的是预测值，x∈Rⁿ表示模型方程的输入向量，x_i表示向量x的第i个元素。w₀∈R表示全局的偏差。w∈Rⁿ表示输入向量x的权重向量。V∈R^n×k是潜在的特征矩阵，用来表示第i个变量和第j个变量之间的交叉项。v_i表示x_i的特征向量。<v_i,v_j>表示向量的内积，用于建模x_i和x_j的相互交叉。

接下来对公式(16)进行优化，降低模型方程的时间复杂度，优化后的表达式如下所示：

经过优化模型的时间复杂度由O(kn²)降到O(kn)，模型的时间复杂度与潜在特征的维数和特征是线性相关的。

对于停电的分类预测属于二分类问题，文章采用logit loss函数作为FM模型的损失函数，为找到防止FM模型过拟合，引入L2-范数正则化的优化技术。最终模型的目标函数表达式如下所示：

接着，通过随机梯度下降的方法训练FM模型。随机梯度下降是沿着不断地沿着目标函数的梯度的反方向去寻找损失函数值最小的参数。

3.4模型集成与预测

Bagging方法以等概率的方式从样本数据集抽取不同的数据构成训练基分类器的子训练集，基分类器本发明选择的是深度神经网络、XGBoost以及因子分解机。因此，选择三份子训练集去分别训练深度神经网络、XGBoost和因子分解机，得到三个基分类器。

由于三种分类器的分类性能不同，因此本发明可以通过投票模型去集成三种基分类器得到一个更强的分类器。也就是说，最终的停电预测结果是根据三个分类器中有两个或者两个以上分类器分类预测相同的结果。然后，根据集成的投票模型可以对新的停电数据进行分类预测，降低用户端的停电频率，提高低压供电可靠性。

图3根据本申请实施例的一种停电预测装置，如图3所示，该装置包括：

提取模块40，用于从第一目标区域的样本数据中提取数据，构成训练基分类器的子训练集，其中，基分类器包括：多个不同学习模型，其中，学习模型与子训练集一一对应；

训练模块42，用于基于学习模型对应的子训练集对学习模型进行训练，得到学习模型对应的目标学习模型；

集成模块44，用于基于集成学习中的投票法集成多个不同目标学习模型，得到强学习器；

预测模块46，用于将当前区域的目标停电数据输入至强学习器进行预测得到预测结果，其中，预测结果包括：停电或者不停电。

该停电预测装置中，提取模块40，用于从第一目标区域的样本数据中提取数据，构成训练基分类器的子训练集，其中，基分类器包括：多个不同学习模型，其中，学习模型与子训练集一一对应；训练模块42，用于基于学习模型对应的子训练集对学习模型进行训练，得到学习模型对应的目标学习模型；集成模块44，用于基于集成学习中的投票法集成多个不同目标学习模型，得到强学习器；预测模块46，用于将当前区域的目标停电数据输入至强学习器进行预测得到预测结果，其中，预测结果包括：停电或者不停电，达到了准确预测停电状况，进而可通知各个用户提前做好停电准备，积极配置备用电源目的，从而实现了准确预测停电状况，提高供电可靠性，提升用户体验的技术效果，进而解决了由于相关技术中缺乏对停电情况的预测方法造成的供电可靠性差，影响用户用电体验的技术问题。

具体地，上述存储介质用于存储执行以下功能的程序指令，实现以下功能:

从第一目标区域的样本数据中提取数据，构成训练基分类器的子训练集，其中，基分类器包括：多个不同学习模型，其中，学习模型与子训练集一一对应；基于学习模型对应的子训练集对学习模型进行训练，得到学习模型对应的目标学习模型；基于集成学习中的投票法集成多个不同目标学习模型，得到强学习器；将当前区域的目标停电数据输入至强学习器进行预测得到预测结果，其中，预测结果包括：停电或者不停电。

具体地，上述处理器用于调用存储器中的程序指令，实现以下功能：

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种停电预测方法，其特征在于，包括：

从第一目标区域的样本数据中提取数据，构成训练基分类器的子训练集，其中，所述基分类器包括：多个不同学习模型，其中，所述学习模型与所述子训练集一一对应；

基于所述学习模型对应的子训练集对所述学习模型进行训练，得到所述学习模型对应的目标学习模型，所述学习模型包括：深度神经网络模型、XGBoost、因式分解模型；

基于集成学习中的投票法集成多个不同所述目标学习模型，得到强学习器；

将当前区域的目标停电数据输入至所述强学习器进行预测得到预测结果，其中，所述预测结果包括：停电或者不停电；

还包括：确定与所述第一目标区域相邻的第二目标区域；构建所述第一目标区域与所述第二目标区域的关联矩阵；对所述关联矩阵进行QR矩阵分解，构造所述第一目标区域所述第二目标区域的空间位置特征，将所述空间位置特征作为数据特征对所述学习模型进行训练。

2.根据权利要求1所述的方法，其特征在于，从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集，包括：

基于自助聚集算法以随机有放回的方式抽取所述样本数据构建所述子训练集。

3.根据权利要求1所述的方法，其特征在于，从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集之前，还包括：

确定样本数据中各种类型的数据特征；

基于基尼系数确定所述各种类型的数据特征对应的重要性分数；

将所述重要性分数同预定阈值进行比较，确定所述重要性分数大于所述预定阈值的数据特征为目标数据特征。

4.根据权利要求3所述的方法，其特征在于，从第一目标区域中的样本数据提取数据构成训练基分类器的子训练集，包括：

基于预定规则从包括有所述目标数据特征的样本数据，提取数据构成所述子训练集。

5.一种停电预测装置，其特征在于，包括：

提取模块，用于从第一目标区域的样本数据中提取数据，构成训练基分类器的子训练集，其中，所述基分类器包括：多个不同学习模型，其中，所述学习模型与所述子训练集一一对应；

训练模块，用于基于所述学习模型对应的子训练集对所述学习模型进行训练，得到所述学习模型对应的目标学习模型，所述学习模型包括：深度神经网络模型、XGBoost、因式分解模型；

集成模块，用于基于集成学习中的投票法集成多个不同所述目标学习模型，得到强学习器；

预测模块，用于将当前区域的目标停电数据输入至所述强学习器进行预测得到预测结果，其中，所述预测结果包括：停电或者不停电；

6.根据权利要求5所述的装置，其特征在于，所述提取模块，包括：

提取单元，用于基于自助聚集算法以随机有放回的方式抽取所述样本数据构建所述子训练集。

7.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至4中任意一项所述停电预测方法。

8.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至4中任意一项所述停电预测方法。