CN108009668B

CN108009668B - 一种应用机器学习的大规模地调负荷预测方法

Info

Publication number: CN108009668B
Application number: CN201711050221.XA
Authority: CN
Inventors: 梁寿愚; 方文崇; 黄雄; 何超林; 朱文; 周志烽
Original assignee: China Southern Power Grid Co Ltd
Current assignee: China Southern Power Grid Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2023-08-25
Anticipated expiration: 2037-10-31
Also published as: CN108009668A

Abstract

本发明是一种应用机器学习的大规模地调负荷预测方法。包括有如下步骤：1)训练集分割；2）偏置项处理；3）结果处理。本发明充分利用积累的负荷历史数据，提高短期负荷预测的准确率，并提高负荷预测的速度，使日常调度运行、购售电交易等所需的负荷预测需求能得到及时的满足。

Description

一种应用机器学习的大规模地调负荷预测方法

技术领域

本发明属于电力调度自动化领域，本发明涉及一种应用机器学习的大规模地调负荷预测方法，特别是一种应用机器学习的大规模地调负荷预测方法，属于应用机器学习的大规模地调负荷预测方法的创新技术。

背景技术

负荷预测是电力系统规划、计划、用电、调度等部门的基础工作,其重要性早已被人们所认识。目前负荷预测的研究,其主要出发点大多是以更为先进的理论提高预测的准确性,为电力系统运行的经济性和安全性提供有力的保证。

负荷预测是其它很多分析计算工作的重要基础，是电力系统节能发电调度的重要手段，为调度决策支持、电网安全校核、阻塞管理、在线安全分析和预警预控等功能的完善实用奠定坚实的基础，也是今后中国智能电网建设中的重要一环。

短期负荷预测的研究已有很长历史，国内外的许多专家、学者在预测理论和方法方面做了大量的研究工作，取得了很多卓有成效的进展。但由于负荷的随机因素太多、非线性极强，而有些传统方法理论依据尚存在局限性等问题，因此，新理论和新技术的发展一直推动着短期负荷预测的不断发展，新的预测方法层出不穷。短期负荷预测的最大特点是其具有明显的周期性包括：1)不同日之间24h整体变化规律的相似性；2)不同星期同一星期类型日的相似性；3)工作日/休息日各自的相似性；4)不同年度的重大节假日负荷曲线的相似性。

在具备上述周期性的同时短期负荷的另外一个特点是其明显受到各种环境因素的影响，如季节更替，天气因素突然变化，设备事故和检修重大文体活动等，这使得负荷时间序列的变化出现非平稳的随机过程。

影响负荷的因素总结如下：1)用电负荷的真实情况，表现在历史负荷数据或负荷曲线上，通常用建模方法来作预测；2)和负荷变化有关的某些外界因素，如工业产值、农业产值，GDP增长、居民增加等，可以用它们的未来数据利用回归分析来预测未来的负荷；3)难以定量表示的不确定的因素，如经济政策、政治风云变化、气象变化、节假日、非计划停运等。4)负荷预测的方法可以分为四大类：经典法，传统法，智能预测和新方法。

支持向量机是电力领域中较常用的负荷预测算法。它是一种监督学习算法，即需要由训练数据集中学到或建立一个模式，并依此模式推测新的实例。支持向量机应用领域集中在分类、回归预测等。针对电力负荷预测领域，选用ε-SVR支持向量回归算法。在电力负荷预测中，样本数据集多呈非线性关系，因此，通常通过非线性映射，把输入样本数据集映射到一个高维的特征空间上去，然后在被映射到的高维的空间上进行线性回归。

由于ε-SVR算法训练、核心问题就是在解决QP问题，拉格朗日乘数的数量等于训练数据集的数量，当问题规模较小时，可以直接使用投影共轭梯度方法来解决。当问题规模很大时，上述解决方法可能无法发挥作用，因为核函数矩阵的元素个数等于训练集样本个数的平方，将消耗大量的计算机内存来存储核函数数值矩阵。在智能电网云存储上，其电力负荷数据不仅是海量的，而且是高维的，更加重了对计算资源的消耗。

发明内容

本发明的目的在于考虑上述问题而提供一种应用机器学习的大规模地调负荷预测方法，本发明充分利用积累的负荷历史数据，提高短期负荷预测的准确率。提高负荷预测的速度，使日常调度运行、购售电交易等所需的负荷预测需求能得到及时的满足。

本发明的技术方案是：本发明的应用机器学习的大规模地调负荷预测方法，包括有如下步骤：

1)训练集分割；

2)偏置项处理；

3)结果处理。

上述步骤1)训练集分割的方法具体如下：

把整个训练集分割成m个数据子集，每个训练集子集分配到一个单独的Map操作任务：Map任务的个数与训练集的子集个数相同，不同Map任务并行执行SMO算法，对训练子集进行训练，当线性ε-SVR算法中，最后输出训练子集的向量和偏置项b满足：

其中，是训练集输入，y_i是训练集输出，α_i是拉格朗日乘数数组，/>是分类向量；

在Reduce阶段，整合各个Map操作生成的以获取全局的/>数组,

其中，是全局分类向量。

本发明将序列最小优化算法引入到支持向量机算法中，在训练过程中选择优化拉格朗日乘子，对ε-SVR的训练阶段进行优化求解，降低算法的复杂度；同时基于MapReduce编程框架和HBase的并行序列最小优化的支持向量回归负荷预测算法，以解决海量、高维负荷数据预测时，单机运算资源不足的问题，本发明具有如下优点：

1)本发明在提升预测准确率的前提下，降低了算法的复杂度。

2)本发明采用分布式架构，解决海量、高维负荷数据预测时，单机运算资源不足的问题。

3)本发明技术实现简单实用，可以直接在EMS系统上开发应用，改造工作量非常小，加上EMS系统及其数据历史数据条件较好，所以该技术更易于实用化和得到准确结果。

本发明是一种方便实用的应用机器学习的大规模地调负荷预测方法。

附图说明

图1为本发明方法的分布式结构示意图。

具体实施方式

实施例：

本发明方法的示意图如图1所示，本发明的应用机器学习的大规模地调负荷预测方法。

采用MapReduce编程框架，不同于传统的ε-SVR负荷预测算法在单机上训练所有的训练集数据的方式，该负荷预测算法将训练集数据分割成多个数据子集，在Map阶段并行的在多个单机训练各个数据子集，在Reduce阶段整合Map阶段的局部结果。在保证预测准确率的前提下，克服了智能电网海量高维数据进行负荷预测时易出现的单机计算资源不足的问题。

此外，该算法的分布式数据存储策略也直接影响着算法的性能表现，本文提出应用Hadoop HBase存储QP解决阶段生成的核函数值，HBase具有高可靠性、高性能、可伸缩的优点，建立在非关系模型基础上的分布式数据库，用以存储大规模生成的核函数值，可保证改进算法的并行性能。

本发明的具体流程和方法描述如下：

(1)训练集分割

把整个训练集分割成m个数据子集，每个训练集子集分配到一个单独的Map操作任务：Map任务的个数与训练集的子集个数相同，不同Map任务并行执行SMO算法，对训练子集进行训练。当线性ε-SVR算法中，最后输出训练子集的向量和偏置项b满足：

其中，是训练集输入，y_i是训练集输出，α_i是拉格朗日乘数数组，/>是分类向量。

在Reduce阶段，整合各个Map操作生成的以获取全局的/>数组。

其中，是全局分类向量。

(2)偏置项处理

在Reduce阶段还需要处理偏置项b，每个训练集子集的偏置项b都是不相同的，在Reduce阶段将对各个Map操作生成的偏置项b取平均，作为全局偏置项。

(3)结果处理

在非线性的ε-SVR算法中，每个Map阶段需生成其训练集子集的拉格朗日乘数α数组和偏置项b。在Reduce阶段，整合各个Map操作生成的拉格朗日乘数α数组，以获取全局的拉格朗日乘数α数组，偏置项b的处理与原算法相同。MapReduce任务需要生成拉格朗日乘数α数组、偏置项b和相应的训练数据集，以计算ε-SVR算法的输出。算法分布式结构如图1所示。

本发明将序列最小优化算法引入到支持向量机算法中，在训练过程中选择优化拉格朗日乘子，对ε-SVR的训练阶段进行优化求解，降低了算法的复杂度。

本发明基于MapReduce编程框架和HBase的并行计算方法，对上述序列最小优化的支持向量回归负荷预测算法进行求解，解决了海量、高维负荷数据预测时，单机运算资源不足的问题。

Claims

1.一种应用机器学习的大规模地调负荷预测方法,其特征在于包括有如下步骤：

1)训练集分割；

2)偏置项处理；

3)结果处理；

上述步骤1)训练集分割的方法具体如下：

在Reduce阶段，整合各个Map操作生成的以获取全局的/>数组,

其中，是全局分类向量；

上述步骤2)偏置项处理的方法具体如下：

在Reduce阶段还需要处理偏置项b，每个训练集子集的偏置项b都是不相同的，在Reduce阶段将对各个Map操作生成的偏置项b取平均，作为全局偏置项；

上述步骤3)结果处理的方法具体如下：

在非线性的ε-SVR算法中，每个Map阶段需生成其训练集子集的拉格朗日乘数α数组和偏置项b，在Reduce阶段，整合各个Map操作生成的拉格朗日乘数α数组，以获取全局的拉格朗日乘数α数组，偏置项b的处理与原算法相同，MapReduce任务需要生成拉格朗日乘数α数组、偏置项b和相应的训练数据集，以计算ε-SVR算法的输出。