CN114066073A

CN114066073A - 电网负荷预测方法

Info

Publication number: CN114066073A
Application number: CN202111383732.XA
Authority: CN
Inventors: 张凯; 郭威; 何胜; 冯剑; 刘梅; 李海坤
Original assignee: Beijing Tsingsoft Technology Co ltd; State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd; Marketing Service Center of State Grid Hebei Electric Power Co Ltd
Current assignee: Beijing Tsingsoft Technology Co ltd; State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd; Marketing Service Center of State Grid Hebei Electric Power Co Ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-18

Abstract

本发明提供一种电网负荷预测方法。该方法包括：对历史时段负荷数据进行并行的异常数据检测，并剔除历史时段负荷数据中的异常数据；通过聚类分析将剔除异常数据的历史时段负荷数据分为不同的类型，并确定每种类型对应的典型负荷数据；根据历史时段负荷影响数据和对应的类型进行训练，得到负荷分类模型；将待预测时段负荷影响数据输入负荷分类模型，确定待预测时段对应的类型和待预测时段对应的典型负荷数据；根据待预测时段对应的典型负荷数据和剔除异常数据的历史时段负荷数据对待预测时段进行负荷预测。本发明能够在提高负荷预测效率的同时提高负荷预测精度。

Description

电网负荷预测方法

技术领域

本发明涉及电网调度技术领域，尤其涉及一种电网负荷预测方法。

背景技术

负荷预测是电力系统调度、实时控制、运行计划和发展规划的前提，是一个电网调度部门和规划部门所必须具有的基本信息。提高负荷预测技术水平，有利于计划用电管理、合理安排电网运行方式和机组检修计划、保障供电安全和可靠性等。

随着电网中各类传感器、智能终端及智能电表的广泛普及，其能够在很短的时间内获取用户粒度更细、维度更髙的海量用电信息，从而构成了用户侧的电力大数据。充分挖掘电力大数据的价值，有利于提高电网负荷预测的精度。

目前常用的负荷数据分析和应用方法主要可分为两类。第一类方法为时间序列分析方法，如多元线性回归、自回归滑动平均模型等方法，该方法要求用于计算的时间序列相对平稳，一般适用于稳定增长的中长期区域负荷预测，难以应用于波动频繁的短期负荷。第二类为以神经网络为代表的人工智能技术及其改进的组合方法，此类方法的整体预测性能较好，但没有考虑不同时间段、不同负荷类型等特性，在处理庞大的数据量和复杂的数据结构时，计算效率有待提升。

发明内容

本发明实施例提供了一种电网负荷预测方法，以解决大多数负荷预测方法，难以基于复杂庞大的电力大数据兼顾负荷预测的效率和准确性的问题。

第一方面，本发明实施例提供了一种电网负荷预测方法，包括：

对历史时段负荷数据进行并行的异常数据检测，并剔除所述历史时段负荷数据中的异常数据；

通过聚类分析将剔除异常数据的历史时段负荷数据分为不同的类型，并确定每种类型对应的典型负荷数据；

根据历史时段负荷影响数据和对应的类型进行训练，得到负荷分类模型；

将待预测时段负荷影响数据输入所述负荷分类模型，确定待预测时段对应的类型和所述待预测时段对应的典型负荷数据；

根据所述待预测时段对应的典型负荷数据和剔除异常数据的历史时段负荷数据对所述待预测时段进行负荷预测。

在一种可能的实现方式中，所述基于异常数据并行检测方法剔除历史时段负荷数据中的异常数据，包括：

基于Spark集群计算平台的Map任务，将历史时段负荷数据的数据空间划分为多个网格单元，并将网格单元和数据分区一一对应分配；

基于Spark集群计算平台的Combine任务，在每个数据分区内进行局部聚类异常数据检测，获得每个数据分区内的局部聚类结果和异常数据集合；

基于Spark集群计算平台的Reduce任务，将每个数据分区内的局部聚类结果和异常数据集合分别进行合并，获得全局聚类结果和全局异常数据集合；

根据所述全局聚类结果和所述全局异常数据集合剔除历史时段负荷数据中的异常数据。

在一种可能的实现方式中，所述基于Spark集群计算平台的Map任务，将历史时段负荷数据的数据空间划分为多个网格单元，并将网格单元和数据分区一一对应分配，包括：

通过历史时段负荷数据得到多维的数据空间；

将所述数据空间添加到队列中，并计算队首元素内包含的数据对象数目；

若所述数据对象数目大于或等于网格单元的数据对象数目阈值，则计算所述队首元素内的数据对象在每个维度的方差，将方差最大的维度作为分割维度，利用所述分割维度将所述队首元素分为两个包含数据对象数目均等的子元素，并将分割后的两个子元素添加到所述队列中；

若所述数据对象数目小于网格单元的数据对象数目阈值，则将所述队首元素划分到一个网格单元内；

将所述队列中的下一元素作为所述队首元素，继续执行计算队首元素内包含的数据对象数目的步骤及后续步骤，直到所述队列为空，获得所述历史时段负荷数据的数据空间划分的网格单元集合；

将所述网格单元集合内的网格单元和数据分区一一对应分配。

在一种可能的实现方式中，所述基于Spark集群计算平台的Combine任务，在每个数据分区内进行局部聚类异常数据检测，获得每个数据分区内的局部聚类结果和异常数据集合，包括：

对于每个数据分区，计算该数据分区内每个数据对象的局部密度和相对距离；

根据每个数据对象的局部密度进行局部聚类，获得每个数据分区内的局部聚类结果；

根据每个数据对象的局部密度和相对距离进行异常检测，获得每个数据分区内的异常数据集合。

在一种可能的实现方式中，所述计算该数据分区内每个数据对象的局部密度，包括：

根据

计算该数据分区内每个数据对象的局部密度；

其中，ρ_a为数据对象a的局部密度，LOF_k(a)为数据对象a的邻域数据对象的局部可达密度与数据对象a的局部可达密度之比的平均数，σ为密度截距，dist(x_a,x_j)为数据对象a与数据对象j的可达距离，dist_cutoff为截距。

在一种可能的实现方式中，所述根据所述待预测时段对应的典型负荷数据对所述待预测时段进行负荷预测，包括：

使用经验模态分解方法将剔除异常数据的历史时段负荷数据分解成多个时序分量，并根据所有的时序分量获得初始特征集合；

通过皮尔逊相关系数法对所述初始特征集合进行相关性分析，确定与所述待预测时段对应的典型负荷数据相关性较大的时序分量为输入特征；

将所述输入特征和剔除异常数据的历史时段负荷数据一起输入门控循环单元网络预测模型对所述待预测时段进行负荷预测。

在一种可能的实现方式中，所述通过皮尔逊相关系数法对所述初始特征集合进行相关性分析，确定与所述待预测时段对应的典型负荷数据相关性较大的时序分量为输入特征，包括：

根据

计算所述初始特征集合中每个时序分量的相关系数；

将相关系数最大的L个时序分量确定为输入特征，其中L为正整数；

其中，η为时序分量的相关系数，x_i为时序分量中的样本点，y_i为所述待预测时段对应的典型负荷数据中的样本点，

为时序分量的样本均值，

为所述待预测时段对应的典型负荷数据的样本均值，n为样本点个数。

第二方面，本发明实施例提供了一种电网负荷预测装置，包括：

异常数据检测模块，用于对历史时段负荷数据进行并行的异常数据检测，并剔除所述历史时段负荷数据中的异常数据；

聚类分析模块，用于通过聚类分析将剔除异常数据的历史时段负荷数据分为不同的类型，并确定每种类型对应的典型负荷数据；

负荷分类模型训练模块，用于根据历史时段负荷影响数据和对应的类型进行训练，得到负荷分类模型；

负荷分类模块，用于将待预测时段负荷影响数据输入所述负荷分类模型，确定待预测时段对应的类型和所述待预测时段对应的典型负荷数据；

负荷预测模块，用于根据所述待预测时段对应的典型负荷数据和剔除异常数据的历史时段负荷数据对所述待预测时段进行负荷预测。

第三方面，本发明实施例提供了一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

本发明实施例提供一种电网负荷预测方法、装置、终端及存储介质，通过对历史时段负荷数据进行并行的异常数据检测，并剔除历史时段负荷数据中的异常数据，可以在降低计算复杂度的同时保证异常数据检测精度；在此基础上通过聚类分析将剔除异常数据的历史时段负荷数据分为不同的类型，并确定每种类型对应的典型负荷数据；根据历史时段负荷影响数据和对应的类型进行训练，得到负荷分类模型；将待预测时段负荷影响数据输入负荷分类模型，确定待预测时段对应的类型和待预测时段对应的典型负荷数据；根据待预测时段对应的典型负荷数据和剔除异常数据的历史时段负荷数据对待预测时段进行负荷预测。一方面挖掘历史时段负荷数据的典型负荷数据可以寻找海量负荷数据中的共性，对之后的负荷预测起到筛选训练数据的作用；另一方面根据待预测时段对应的典型负荷数据和剔除异常数据的历史时段负荷数据对待预测时段进行负荷预测能够快速匹配相应模型实现负荷预测。因此本发明实施例提供的电网负荷预测方法能够在提高负荷预测效率的同时提高负荷预测精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的电网负荷预测方法的实现流程图；

图2是本发明实施例提供的Spark的密度峰值聚类异常数据并行检测算法的实现框架图；

图3是本发明实施例提供的Spark平台下的电网负荷预测的流程框图；

图4是本发明另一实施例提提供的电网负荷预测方法的实现流程图；

图5是利用本发明实施例提供的电网负荷预测方法的短期负荷预测结果与实际负荷值的对比图；

图6是本发明实施例提供的电网负荷预测方法的并行化性能图；

图7是本发明实施例提供的电网负荷预测装置的结构示意图；

图8是本发明实施例提供的终端的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图通过具体实施例来进行说明。

参见图1，其示出了本发明实施例提供的电网负荷预测方法的实现流程图，详述如下：

在步骤101中，对历史时段负荷数据进行并行的异常数据检测，并剔除历史时段负荷数据中的异常数据。

其中，在电网中，负荷数据通常是通过各种传感器测量得到，往往会由于采集、传输、存储等因素造成个别数据丢失或失真，在开始预测之前，需要对数据进行预处理。

对于缺失数据的预处理，一般可以采用均值法对缺失值进行填补，即通过计算该时刻前后时刻点的平均值而得到，计算如下：

式中，L_t为t时刻填补值；L_t-1和L_t+1分别表示前一时刻和后一时刻的负荷值。当序列的开头和结尾数据缺失时，可采用趋势推法进行补全。

还可以对数据的量纲进行统一预处理，将负荷影响因素数据统一归一化值[0,1]区间，即：

式中，

是归一化后的值；x_i是原样本数据值；x_max、x_min分别为数据序列中最大值和最小值。为使各种负荷影响因素数据(温度、湿度、气象类型、星期类型等)具有数值上的可比性，可以建立映射函数和映射数据库，根据以往工作经验确定映射值。

为提高预测的准确度，还需要对数据值的真实性进行辨别，即对异常数据进行识别并修正，以剔除坏数据，减少数据对负荷预测的影响。通常可以采用粗糖集理论、小波理论等进行异常数据检测。然而，通常的异常数据检测方法一般未考虑数据的局部特点，而且需要遍历整个数据集，导致整个算法的时间复杂度较高。因此，本实施例对历史时段负荷数据进行并行的异常数据检测，并剔除历史时段负荷数据中的异常数据，以在降低计算复杂度的同时保证异常数据检测精度。

其中，Spark是一个快速且通用的集群计算平台，其扩展了广泛使用的MapReduce计算模型，而且能够高效的支持更多计算模式，包括交互式查询和流处理。Spark的一个主要特点就是能够在内存中进行计算，因而处理速度更快。

在海量电力负荷数据情况下，单机版本的异常数据检测算法效率低下，不能满足电力系统实时的异常数据检测要求。因此，可以使用Spark并行编程模型将异常数据检测算法并行化，以提高异常检测的效率。如图2所示，基于Spark的密度峰值聚类异常数据并行检测算法主要包含三个重要阶段，即数据分区、分区内局部聚类和异常检测、以及局部簇和异常点合并。在Map阶段，首先将电力负荷数据集用KD-Tree算法将数据空间划分成了多个包含大致相等数据对象数目的网格单元，然后利用数据分区算法将数据分区和网格单元一一对应分配。Combine阶段，在每一个分区内执行局部聚类异常检测算法获得数据分区的局部聚类结果以及数据分区内的异常样本集合。Reduce阶段执行局部簇合并以及异常点合并算法连接局部簇标记，获得全局簇的聚类结果以及全局的异常样本点集合。

本实施例对历史时段负荷数据进行并行的异常数据检测，通过网格单元将待聚类的数据集划分成多个数据量相对均衡的数据分区，并且利用Spark并行编程模型设计基于密度峰值聚类的异常数据并行检测算法，在各个计算节点对应的数据分区中并行检测负荷数据，同时合并检测出的异常数据集合，从而可以在降低计算复杂度的同时保证异常数据检测精度。

在步骤102中，通过聚类分析将剔除异常数据的历史时段负荷数据分为不同的类型，并确定每种类型对应的典型负荷数据。

在步骤103中，根据历史时段负荷影响数据和对应的类型进行训练，得到负荷分类模型。

在步骤104中，将待预测时段负荷影响数据输入负荷分类模型，确定待预测时段对应的类型和待预测时段对应的典型负荷数据。

在步骤105中，根据待预测时段对应的典型负荷数据和剔除异常数据的历史时段负荷数据对待预测时段进行负荷预测。

其中，在负荷预测中，训练数据中主要包括负荷数据和负荷影响数据。传统的浅层学习方法，如人工神经网络、支持向量化等，一方面由于结构模型简单难以学习到训练数据中复杂的非线性映射关系，另一方面为了避免局部极小値只能选取少量的特征进行训练，从根本上限制了其应用范围和预测精度。

基于Spark内存计算框架结合步骤102至步骤105，可以充分考虑选取更多维更广泛的特征，最大程度上利用海量数据，更加精确、快速地预测负荷。同时，考虑到用电负荷本身周期性和规律性的特征，可以首先通过挖掘历史时段负荷数据的典型负荷数据(例如典型日负荷数据、典型日负荷曲线)来寻找海量负荷数据中的共性；再结合负荷影响数据和典型负荷数据对应的各种类型，利用深度置信网络(Deep belief network，DBN)训练负荷分类模型，确定待预测时段对应的类型，进而确定待预测时段对应的典型负荷数据。最终将待预测时段对应的典型负荷数据作为一个特征应用到基于经验模态分解-门控循环单元网络的负荷预测器中进行负荷预测。Spark平台下的电网负荷预测流程如图3所示。

对应于步骤102，可以利用模糊C均值聚类(Fuzzy C-means Clustering，FCMC)法对剔除异常数据的历史时段负荷数据进行聚类后，再将配网内n台配比的负荷特性归类c个同质聚类中。为求解最优的隶属度矩阵U和聚类中心矩阵Ψ，可根据聚类准则构造如下目标函数：

式中，

表示第i台配变隶属于第k个聚类中心的程度，且一台配变对所有聚类的隶属度之和等于1；

为第i台配变与第k个聚类中心之间的欧氏距离；τ∈[0,2]为加权指数；λ_i为等式约束式的拉格朗日乘子。使目标函数最小的迭代公式计算如下：

式中，x_i为第i台配变的数据量；

为模糊聚类的聚类中心量。

为了保持整个负荷预测流程的一致性与快速性，使用基于Spark内存计算环境下的模糊C均值聚类算法，其具体步骤包括如下：

(1)Drive驱动。主要任务是初始化程序的基本功能，通过Spark中的函数方法对各个子任务进行驱动。当集群启动后，集群中的每一节点会将数据集文件中的每行数据作为一个弹性分布式数据集(Resilient Distributed Datasets，RDD)加载到Spark中，并拷贝共享数据到集群中的每个节点。

(2)Map任务。通过逐行扫描计算负荷数据集中的数据对象RDD，计算数据对象与全局变量聚类中心中的各个中心点的距离，通过比较将该数据对象分配到离中心点距离最小的聚类中，最终输出为键值对<key,value>，其中key为聚类中心，value为属于该聚类中心的数据对象。

(3)Combine任务。数据集经过map过程后会生成大量RDD中间数据集，为了不使网络通信成为瓶颈，在本地对属于同key的value值求平均，精简得到局部结果<key,value>后再将数据传给主节点进行处理，减少通信量。

(4)Reduce任务。汇总合并来自计算节点的combine过程局部结果，并将结果RDD以数组的形式返回生成全局结果。其中每个计算节点中Combine的数据点数量不一，使用计数器对数据点进行统计，得出一个权值，在Reduce计算时使用权值和局部结果计算得出全局结果。

对应于步骤103和步骤104，为了得到更精确的负荷预测结果，在进行实际负荷预测之前，首先确定待预测时段的负荷类型，之后提取对应类型的典型负荷数据并将对应类型的典型负荷数据作为一个相关输入，从而在负荷预测的过程中体现出海量负荷的隐藏共性。这一过程可以通过由受限玻尔兹曼机(Restricted Boltzmann machine，RBM)堆叠形成的概率生成模型DBN处理，DBN在分类问题上有非常强的学习能力。基于DBN训练负荷分类模型并确定待预测时段的类型的具体步骤如下：

(1)确定DBN的输入元与输出元。通常选取的输入元包括与待预测时段负荷相关的负荷影响数据，如与待预测时段可能有相同规律日期的负荷数据以及所属类别、气象数据、日期属性等。对于输入元中的日期属性，可以将其转换为8个二值输入。输出元的设置取决于步骤102聚类分析确定的类型数。

(2)基于信息熵理论确定DBN隐含层的神经元个数。

(3)堆叠RBM形成DBN，并调整网络的相关参数，其中参数调整主要是通过不断对模型效果验证分析得到。

(4)将训练数据保存至HDFS中，并转换为RDD格式。

(5)通过数据并行的方式并行训练DBN模型。具体的方法为：在Spark集群中建立多个数据分片，并创建多个神经网络模型副本对各个分片进行同时的训练，将中间结果缓存与内存中提取模型的训练速度。各副本结束训练之后，将计算后的参数调整值传送给模型参数服务器，并向参数服务器申请新的参数，进行下一步训练，直至达到迭代次数或相应精度。

(6)利用己经训练好的DBN负荷分类模型确定待预测时段对应的类型。

对应于步骤105，常用的基于经验模态分解(Empirical Mode Decomposition，EMD)的预测方法是分别对分解出来的子序列建立预测模型，再将每个预测模型的输出进行叠加，得到最终的预测结果。这样虽然提高了预测的精度，但由于分解完的子序列中存在着一些高频的噪声分量，在对这部分子序列建模时会有较大的预测误差出现，从而影响整体的预测精度，同时由于要对分解得到的每一个子序列分别建立预测模型，会引入多重随机误差，并且加大了预测工作量，提高了模型的整体复杂度。本实施例提出一种基于特征选择的经验模态分解-门控循环单元网络(Gated Recurrent Unit，GRU)模型用于负荷预测，对分解完的子序列进行特征选择，不仅可以避免多重预测误差的出现，提高预测精度，而且能够减少预测工作量，降低模型复杂度。

可选的，根据待预测时段对应的典型负荷数据对待预测时段进行负荷预测，可以包括：

使用经验模态分解方法将剔除异常数据的历史时段负荷数据分解成多个时序分量，并根据所有的时序分量获得初始特征集合；通过皮尔逊相关系数法对初始特征集合进行相关性分析，确定与待预测时段对应的典型负荷数据相关性较大的时序分量为输入特征；将输入特征和剔除异常数据的历史时段负荷数据一起输入门控循环单元网络预测模型对待预测时段进行负荷预测。

其中，可以根据

计算初始特征集合中每个时序分量的相关系数；将相关系数最大的L个时序分量确定为输入特征，L为正整数。

其中，η为时序分量的相关系数，x_i为时序分量中的样本点，y_i为待预测时段对应的典型负荷数据中的样本点，

为时序分量的样本均值，

为待预测时段对应的典型负荷数据的样本均值，n为样本点个数。

本实施例中，经过EMD分解之后得到的时序分量组成了初始的特征集合，然后通过特征选择方法对初始特征集合进行筛选。皮尔逊相关系数法作为过滤式特征选择方法，算法的通用性强，复杂度较低，在处理大规模数据集的问题时具有较强的优势，可以在较短的时间内筛选出所需要的特征，因此常用于对整个数据集进行特征选择。具体来说，计算每个时序分量与待预测时段对应的典型负荷数据的相关系数，移除相关系数小于阈值的时序分量，选择前L个和待预测时段对应的典型负荷数据相关系数最大的时序分量作为预测模型的输入特征使用，最大程度利用了电网负荷的海量数据，在避免直接对分解所得的多个子序列分别建模预测引入的多重随机误差的基础上，能够更加精确、快速地预测负荷。

本发明实施例通过对历史时段负荷数据进行并行的异常数据检测，并剔除历史时段负荷数据中的异常数据，可以在降低计算复杂度的同时保证异常数据检测精度；在此基础上通过聚类分析将剔除异常数据的历史时段负荷数据分为不同的类型，并确定每种类型对应的典型负荷数据；根据历史时段负荷影响数据和对应的类型进行训练，得到负荷分类模型；将待预测时段负荷影响数据输入负荷分类模型，确定待预测时段对应的类型和待预测时段对应的典型负荷数据；根据待预测时段对应的典型负荷数据和剔除异常数据的历史时段负荷数据对待预测时段进行负荷预测。一方面挖掘历史时段负荷数据的典型负荷数据可以寻找海量负荷数据中的共性，对之后的负荷预测起到筛选训练数据的作用；另一方面根据待预测时段对应的典型负荷数据和剔除异常数据的历史时段负荷数据对待预测时段进行负荷预测能够快速匹配相应模型实现负荷预测。因此本发明实施例提供的电网负荷预测方法能够在提高负荷预测效率的同时提高负荷预测精度。

在本发明另一实施例提供的电网负荷预测方法中，结合图2和图4，对历史时段负荷数据进行并行的异常数据检测，并剔除历史时段负荷数据中的异常数据，可以包括：

在步骤401中，基于Spark集群计算平台的Map任务，将历史时段负荷数据的数据空间划分为多个网格单元，并将网格单元和数据分区一一对应分配。

其中，基于Spark的密度峰值聚类的异常数据并行检测算法可以将数据空间划分成为空间网格，为了数据划分均匀和每个计算节点的负载相对均衡，以便更好的进行异常数据检测，基于Spark的密度峰值聚类的异常数据并行检测算法可以采用K-dimensional树(KD-Tree)算法将数据空间划分成多个包含大致相等数据对象数目的网格单元。

由于数据分区和网格单元是一一对应关系，每个数据分区对应一个网格单元，每个网格单元对应一个数据分区。因而在一个数据分区可以计算出数据分区内任意数据对象的局部密度和最小距离。

可选的，基于Spark集群计算平台的Map任务，将历史时段负荷数据的数据空间划分为多个网格单元，并将网格单元和数据分区一一对应分配，可以包括：

通过历史时段负荷数据得到多维的数据空间；将数据空间添加到队列中，并计算队首元素内包含的数据对象数目；若数据对象数目大于或等于网格单元的数据对象数目阈值，则计算队首元素内的数据对象在每个维度的方差，将方差最大的维度作为分割维度，利用分割维度将队首元素分为两个包含数据对象数目均等的子元素，并将分割后的两个子元素添加到队列中；若数据对象数目小于网格单元的数据对象数目阈值，则将队首元素划分到一个网格单元内；将队列中的下一元素作为队首元素，继续执行计算队首元素内包含的数据对象数目的步骤及后续步骤，直到队列为空，获得历史时段负荷数据的数据空间划分的网格单元集合；将网格单元集合内的网格单元和数据分区一一对应分配。

示例性的，可以将需要进行异常数据检测的历史时段负荷数据作为样本数据集X，通过样本数据集X得到多维的数据空间D_S。利用KD-Tree算法把多维数据空间D_S分成多个大小相对均衡且没有重合的网格单元。把样本数据集X中的样本数据对象分配到网格单元，然后计算各个网格单元内含有的样本数据对象的数量。其中，可以初始化一个空的队列Queue，并且将数据空间D_S添加到队列Queue中，同时初始化一个空的网格单元集合D。从队列Queue中弹出队首元素S，并且计算S内所包含的样本数据对象数目n。如果n<n_max，则将S添加到D中。如果n≥n_max，则计算求得空间区域S内的数据对象在m维空间中各个维度的方差，同时选取方差最大的维度作为分隔维度，将S分成两个包含数据对象数目均等的子空间区域S1、S2，然后将S1和S2添加到队列Queue中，等待继续划分。如果队列Queue为空，则样本数据集X的空间网格划分结果就是集合D，如果队列Queue不为空，则跳转到从队列Queue中弹出队首元素S的步骤继续执行。依据划分好的网格单元集合D，将网格单元和数据分区一一对应分配，可得到样本数据集X的所有数据分区。

本实施例在对样本数据集进行分区时，需要将一些数据对象同时分配给多个不同的数据分区，这是因为对于划分完成后网格单元内的临界点，由于其密度截距邻域范围内的一部分邻近数据点不在本网格单元内，而在相邻网格单元内，如果直接计算其局部密度，会出现局部密度误差过大的问题，导致异常检测出现过大误差。所以为了计算这些临界点的局部密度，在进行数据分区时，可以把一些数据对象同时分配给多个不同分区。通过将数据空间划分成为空间网格，划分完之后在计算数据对象局部密度时，可以只需要考虑所处网格单元内的样本数据对象以及相邻网格单元内的样本数据对象，大大降低了算法的时间复杂度。

在步骤402中，基于Spark集群计算平台的Combine任务，在每个数据分区内进行局部聚类异常数据检测，获得每个数据分区内的局部聚类结果和异常数据集合。

在步骤403中，基于Spark集群计算平台的Reduce任务，将每个数据分区内的局部聚类结果和异常数据集合分别进行合并，获得全局聚类结果和全局异常数据集合。

可选的，基于Spark集群计算平台的Combine任务，在每个数据分区内进行局部聚类异常数据检测，获得每个数据分区内的局部聚类结果和异常数据集合，可以包括：

对于每个数据分区，计算该数据分区内每个数据对象的局部密度和相对距离；根据每个数据对象的局部密度进行局部聚类，获得每个数据分区内的局部聚类结果；根据每个数据对象的局部密度和相对距离进行异常检测，获得每个数据分区内的异常数据集合。

其中，根据

计算该数据分区内每个数据对象的局部密度。

其中，ρ_a为数据对象a的局部密度，LOF_k(a)为数据对象a的邻域数据对象的局部可达密度与数据对象a的局部可达密度之比的平均数，如果这个比值越接近1，说明a的局部可达密度与其邻域数据对象密度相差较小，a可能和邻域同属一簇；如果这个比值越小于1，说明a的密度高于其领域数据对象密度，a为密集点；如果这个比值越大于1，说明a的密度小于其领域数据对象密度，a越可能是异常数据对象。σ为密度截距，距离数据对象小于σ的范围成为数据对象的密度截距邻域；dist(x_a,x_j)为数据对象a与数据对象j的可达距离，dist_cutoff为截距。

则判定样本数据对象为异常样本数据对象的异常值判定规则描述如下：

式中，δ_a为相对距离，δ_Θ为相对距离阈值，γ_a为经验参数，N为样本总数。

为了使各个计算节点可以并行在其对应的数据分区上执行局部聚类异常检测，需要对原始密度峰值聚类进行优化。原始密度峰值聚类算法需要依靠经验去选取聚类中心，为了摆脱算法的主观人为因素干预，采用一个辅助函数选取聚类中心。数学表达如下：

式中，ρ_i为样本点局部密度，

为样本的最小距离。

在分区内局部聚类时，需要给定一个聚类中心阈值，并且将数据分区内每个样本数据对象的γ_i取值与给定的聚类中心阈值进行比较，如果样本数据对象的γ_i取值大于设定阈值，则将该数据对象作为聚类中心的候选对象。

为了达到各个计算节点可以独立在对应的样本数据分区上进行聚类异常检测的目标，数据分区阶段把样本数据集划分成了若干个相互重叠的数据分区，这些互相重叠的数据分区中还包含了一些公共的样本数据对象。在局部异常点合并和局部簇合并阶段，算法可以通过评估这些公共数据对象(即临界点和扩展点)的特征，找出所有需要合并的局部簇，如果异常样本点重复出现两个或两个以上的数据分区中则只需要保留其中一个异常样本点，消除重复异常样本点，组成全局异常样本点集合。

在步骤404中，根据全局聚类结果和全局异常数据集合剔除历史时段负荷数据中的异常数据。

本实施例在异常数据检测中，首先设定异常值判定规则，然后在不同分区内进行局部聚类异常检测，并且将局部簇合及异常点合并，最后，利用Spark并行编程模型实现异常数据的并行化检测。可以在每个分区中进行异常数据检测，剔除坏数据，减少数据对负荷预测的影响。

以下通过具体实施例，对本发明实施例提供的电网负荷预测方法进一步说明：

搭建的Spark集群由7台配置相同的PC机组成，每台PC机内存4G，硬盘1T，CPU为双核Inter E7500处理器，主频2.93GHz，运行Centos Linux操作系统。其中一台机器作为Master主节点，负责整个集群的资源分配和作业调度，其余6台为Slave从节点，主要用于存储数据和运行任务。

实验数据来源于某地区电网采集的负荷数据和影响因素数据，数据量为TB级，维度高，主要以结构化和半结构化数据为主，符合电力大数据特征。训练样本为2020年5月1日至2020年5月31日的用电数据，采样间隔为1h。以2021年5月1日至5月10日的24小时负荷数据作为测试样本，采用相对误差、平均误差E_ME、均方根误差E_RMSE和平均绝对百分比误差E_MAPE评价负荷预测效果。评价指标计算如下：

式中，y(i)和

为i时刻的实际负荷值和预测负荷值。

(1)短期负荷预测

短期预测结果如图5所示，为了定量分析本发明实施例提供的电网负荷预测方法的准确性，选取其中6个时间点进行实验对比，结果如表1所示。

表1负荷预测结果与实际负荷值比较

从图5和表1可以看出，本发明实施例提供的电网负荷预测方法，其预测值与真实值的相对误差大约为2％，最大相对误差为2.68％，能够满足电力系统预测工程应用需求。

(2)中长期负荷

对10日内的负荷进行预测负荷预测误差评估指标结果如表2所示。其中1月1日至3日为元旦节日，1月4日至8日为工作日，1月9日至10日为双休日，可较好反映在各负荷模式下的预测效果。

表2负荷预测精度对比

从表2可以看出，在长时间的负荷预测中，本发明实施例提供的电网负荷预测方法的误差评估指标值分别为0.023MW、19.75％和2.76％，均值满足国网考核指标，整体偏差控制更好。

(3)并行性能分析

加速比是衡量一个并行化系统并行效率的重要标准，Amdahl定律指出越优秀的并行计算系统，加速比越趋近于并行化系统处理器的个数。因此，在并行性能实验中，将训练数据集扩充到原数据的1000倍、2000倍和4000倍，分别在集群节点个数为8、16、32的云计算平台上运行以计算加速比，结果如图6所示。

从图6中可以看出，当云集群节点数量达到一定数量时，因执行时间很多消耗在了节点间网络传输等额外消耗上，所以加速比将随着云集群节点的增加而变差。但从有限的节点可看出，随着数据量的增加，本发明实施例提供的电网负荷预测方法的加速比依然几乎线性增加，且与较小数据集的加速比折线相差不大，说明本发明实施例提供的电网负荷预测方法的并行性能较好。

本发明实施例对历史时段负荷数据进行并行的异常数据检测，并剔除历史时段负荷数据中的异常数据，通过网格单元将待聚类的数据集划分成多个数据量相对均衡的数据分区，并且利用Spark并行编程模型设计基于密度峰值聚类的异常数据并行检测算法，在各个计算节点对应的数据分区中并行检测负荷数据，同时合并检测出的异常数据集合，从而可以在降低计算复杂度的同时保证异常数据检测精度。为了最大程度地利用电网负荷的海量数据，并且考虑负荷本身的周期性和规律性等特征，通过模糊C均值聚类算法寻的负荷数据间各共性，并将其输入深度置信网络进行负荷分类模型训练，有利于为后期的负荷预测提供高可靠性的负荷数据。在此基础上将待预测时段对应的典型负荷数据作为基于特征选择的EMD-GRU预测模型的一个输入特征进行负荷预测，不仅可以避免多重预测误差的出现，提高预测精度，而且能够减少预测工作量，降低模型复杂度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

以下为本发明的装置实施例，对于其中未详尽描述的细节，可以参考上述对应的方法实施例。

图7示出了本发明实施例提供的电网负荷预测装置的结构示意图，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

如图7所示，电网负荷预测装置包括：异常数据检测模块71、聚类分析模块72、负荷分类模型训练模块73、负荷分类模块74和负荷预测模块75。

异常数据检测模块71，用于对历史时段负荷数据进行并行的异常数据检测，并剔除历史时段负荷数据中的异常数据；

聚类分析模块72，用于通过聚类分析将剔除异常数据的历史时段负荷数据分为不同的类型，并确定每种类型对应的典型负荷数据；

负荷分类模型训练模块73，用于根据历史时段负荷影响数据和对应的类型进行训练，得到负荷分类模型；

负荷分类模块74，用于将待预测时段负荷影响数据输入所述负荷分类模型，确定待预测时段对应的类型和所述待预测时段对应的典型负荷数据；

负荷预测模块75，用于根据所述待预测时段对应的典型负荷数据和剔除异常数据的历史时段负荷数据对所述待预测时段进行负荷预测。

在一种可能的实现方式中，异常数据检测模块71，可以用于基于Spark集群计算平台的Map任务，将历史时段负荷数据的数据空间划分为多个网格单元，并将网格单元和数据分区一一对应分配；

在一种可能的实现方式中，异常数据检测模块71，可以用于通过历史时段负荷数据得到多维的数据空间；

在一种可能的实现方式中，异常数据检测模块71，可以用于对于每个数据分区，计算该数据分区内每个数据对象的局部密度和相对距离；

在一种可能的实现方式中，异常数据检测模块71，可以用于根据

计算该数据分区内每个数据对象的局部密度；

在一种可能的实现方式中，负荷预测模块75，可以用于使用经验模态分解方法将剔除异常数据的历史时段负荷数据分解成多个时序分量，并根据所有的时序分量获得初始特征集合；

在一种可能的实现方式中，负荷预测模块75，可以用于根据

计算所述初始特征集合中每个时序分量的相关系数；

为时序分量的样本均值，

图8是本发明实施例提供的终端的示意图。如图8所示，该实施例的终端8包括：处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82。所述处理器80执行所述计算机程序82时实现上述各个电网负荷预测方法实施例中的步骤，例如图1所示的步骤101至步骤105。或者，图4所述步骤401至步骤404。所述处理器80执行所述计算机程序82时实现上述各装置实施例中各模块/单元的功能，例如图7所示模块71至75的功能。

示例性的，所述计算机程序82可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器81中，并由所述处理器80执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序82在所述终端8中的执行过程。例如，所述计算机程序82可以被分割成图7所示的模块71至75。

所述终端8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端8可包括，但不仅限于，处理器80、存储器81。本领域技术人员可以理解，图8仅仅是终端8的示例，并不构成对终端8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端还可以包括输入输出设备、网络接入设备、总线等。

所称处理器80可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器81可以是所述终端8的内部存储单元，例如终端8的硬盘或内存。所述存储器81也可以是所述终端8的外部存储设备，例如所述终端8上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器81还可以既包括所述终端8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个电网负荷预测方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种电网负荷预测方法，其特征在于，包括：

2.根据权利要求1所述的电网负荷预测方法，其特征在于，所述对历史时段负荷数据进行并行的异常数据检测，并剔除所述历史时段负荷数据中的异常数据，包括：

3.根据权利要求2所述的电网负荷预测方法，其特征在于，所述基于Spark集群计算平台的Map任务，将历史时段负荷数据的数据空间划分为多个网格单元，并将网格单元和数据分区一一对应分配，包括：

通过历史时段负荷数据得到多维的数据空间；

4.根据权利要求2所述的电网负荷预测方法，其特征在于，所述基于Spark集群计算平台的Combine任务，在每个数据分区内进行局部聚类异常数据检测，获得每个数据分区内的局部聚类结果和异常数据集合，包括：

5.根据权利要求4所述的电网负荷预测方法，其特征在于，所述计算该数据分区内每个数据对象的局部密度，包括：

根据

计算该数据分区内每个数据对象的局部密度；

6.根据权利要求1-5任一项所述的电网负荷预测方法，其特征在于，所述根据所述待预测时段对应的典型负荷数据对所述待预测时段进行负荷预测，包括：

7.根据权利要求6所述的电网负荷预测方法，其特征在于，所述通过皮尔逊相关系数法对所述初始特征集合进行相关性分析，确定与所述待预测时段对应的典型负荷数据相关性较大的时序分量为输入特征，包括：

根据

计算所述初始特征集合中每个时序分量的相关系数；

为时序分量的样本均值，

8.一种电网负荷预测装置，其特征在于，包括：

9.一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上的权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上的权利要求1至7中任一项所述方法的步骤。