CN110619360A

CN110619360A - 一种考虑历史样本相似性的超短期风功率预测方法

Info

Publication number: CN110619360A
Application number: CN201910846474.0A
Authority: CN
Inventors: 徐文渊; 陶元; 裘智峰; 向劲勇; 邱思齐; 刘三鑫; 陈华军
Original assignee: HUBEI CENTRAL CHINA TECHNOLOGY DEVELOPMENT OF ELECTRIC POWER Co Ltd; State Grid Corp of China SGCC; Central South University
Current assignee: HUBEI CENTRAL CHINA TECHNOLOGY DEVELOPMENT OF ELECTRIC POWER Co Ltd; State Grid Corp of China SGCC; Central South University
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2019-12-27

Abstract

本发明公开了一种考虑历史样本相似性的超短期风功率预测方法，通过分析当前时刻功率值与历史功率值、气象因子历史值之间的相关性，筛选相关性较大的属性构造历史样本，反应当前时刻风机功率的信息。历史样本矩阵经主成分分析法降维后，进行K‑means聚类，根据预测效果选择合适的聚类类别K。K个不同的聚类类别表征不同风况的功率发生情况，根据类别标签，采用历史数值天气预报信息作为输入，当前时刻的风功率值作为输出，建立对应的K个支持向量机预测模型，并且用布谷鸟搜索算法确定支持向量机的惩罚系数和核函数带宽等超参数。本发明避免了无法反应所有外部信息以及过拟合等问题，能有效提升预测的精度，从而提高风电的消纳能力。

Description

一种考虑历史样本相似性的超短期风功率预测方法

技术领域

本发明涉及风电功率预测技术，具体涉及一种考虑历史样本相似性的超短期风功率预测方法。

背景技术

随着全球化石能源的枯竭以及环保意识的不断提高，传统电力生产方式亟需改革，以风能、光伏为代表的新能源发电方式凭借绿色、简单、安全等突出优势，逐渐成为传统火力发电的替代方式。以风能和光伏为例，发电量直接受到风和光照的影响，随着风力的波动和光照的变化而剧烈变化。因此新能源电力具有波动性、随机性和间歇性，大规模新能源集中并网会造成电网电压波动、影响电网平衡，严重的甚至造成电网瘫痪等灾难性影响。准确预测新能源出力，编制风光水火联调计划，是解决新能源随机性、波动性对电网冲击，提高新能源消纳率的关键技术之一。

风电是新能源中比较容易被大规模利用，且发电效果较好的新能源之一，各国都对风能进行了大规模的开发。为了使风电能大规模的上网消纳，需要高精度的风电预测技术，国内外在风电预测技术上投入了大量的物力人力。国外对新能源发电研究较早，风功率的预测技术也较国内的技术领先，例如芬兰、德国、丹麦等国家都有较成熟的风电功率预测系统，按照建模的过程不同，风电预测模型可以分为量大类：一类是考虑物理输量如风机风功率曲线、NWP数值天气预报、大气动力学、地形等因素的传统物理模型。此种模型预测精度高，只需要现场物理量的支持，适合新建风电场选址等应用。但该模型建模过程复杂，需要大量的计算。第二类是应用风电场历史数据，直接考虑风电功率输入量与输出量之间关系的统计模型，根据所采取的数学模型不同，经典的预测方法有时间序列法、神经网络法、支持向量机、小波变换法等单模型法，及两个或多个组合预测模型。该方法需要大量的历史数据支持，适用于已建成且有历史记录的风电场，该方法计算量较小，计算速度快。组合模型能充分发挥单一模型的优点同时规避各模型的预测风险，是近年来国内外研究的热点。

国内的风功率预测技术起步较晚，在近年来取得了一系列的成果，国家电网公司在2009年发布了《风电场接入电网技术规定实施细则》，对风电企业并网的风功率预测系统提出了具体实施性的要求。高校研究也朝着更高精度、更快计算速度等高指标的方向进行。重庆大学的学者提出了选择风电出力相似日的方法筛选预测模型的样本，建立了风功率基于相似日功率和Chebyshev神经网络的预测模型，取得了较好效果。山东大学的学者首先采用经验模态分解EMD-样本熵SE方法处理复杂度差异明显的风电子序列，其次对各子序列进行经原始岭回归改进的极端学习(PRR-ELM)机建模。实际验证在超短期预测出力上较EMS-SE理论和最小二乘支持向量机模型更接近真实值。

历史数据对利用统计的方法建立的风功率出力模型影响很大，根据输出目标的特征，选择合适、准确的输入数据是提高预测准确率的有效方法之一。常规的建模方法在建立模型时，或是直接将简单预处理之后的数据作为输入，或是对所有的输入量进行分解、变换后作为输入，然后通过调整预测模型和方法来提高预测准确率，忽视了不同类别的气候、气象条件、NWP数据对风电出力的影响因素。将全部数据进行统一建模，不考虑风特性种类会引入大量的噪声，影响最终的预测效果。而且，实际中不同类别的风种类对风电机的出力有着不同的影响，使得预测效果在部分类别条件的精度高、部分风类别条件的预测精度低。因此，在进行模型建模之前，进行风种类的区别筛选，合理选择训练样本，能够获得与改善预测模型相似的最终效果。此外，常规的预测模型仅停止于单次预测效果最优的结果，没有考虑是否在此预测模型的基础上，能够使预测模型的准确率获得提升，从而忽视了获得更高精度预测结果的可能。

发明内容

本发明的目的在于克服现有技术中存在的缺陷，提供了一种实现方便、响应迅速、预测精度高的考虑历史样本相似性的超短期风功率预测方法。

一种考虑历史样本相似性的超短期风功率预测方法，其特征在于，包括以下步骤：

步骤1：通过测风塔或数值天气预报系统收集原始的历史气象数据，通过风电场管理系统收集一定采样时间间隔的所述历史气象数据对应时刻的风电出力数据，所述历史气象数据信息包括风速S、风向D、温度T、气压P、湿度H；

步骤2：利用采样的历史数据构造用于分析风况相似性的历史样本；步骤2具体为：

步骤2.1：分析当前时刻的功率P_t与历史气象因子之间以及历史功率值之间的相关性，大小通过Pearson相关系数确定，P_t作为Pearson系数计算中的一个变量；

步骤2.2：选定相关性较大的属性构成历史样本，所有的历史样本一起，构成历史样本矩阵；

步骤3：对历史样本矩阵进行主成分分析法降维并采用K-means方法聚类；根据聚类结果，划分历史样本的类别，每一个历史样本对应一个相应的当前功率P_t，得到不同的K类风况；

步骤4：对步骤3聚类得到的不同风况，使用历史信息作为输入，当前功率作为输出，分别建立经布谷鸟搜索算法优化的支持向量机模型，然后训练该支持向量机模型，得到对应类别的超短期风功率预测模型；

步骤5：实时超短期风功率预测：将待预测的目标时间功率看作当前时刻的功率P′_t，采集当前时刻最近的历史气象因子和历史功率数据，采样时间间隔与步骤1中的历史时间序列数据集的采样时间间隔Δt一致，经过步骤3的历史样本类别判断后，选取步骤4中对应类别的超短期风功率预测模型，对待预测时间点的功率P′_t进行预测。

进一步的，步骤1中所述历史气象数据和风电场出力数据在采样时间点上一一对应，根据风电场发电上网要求，历史数据的采样时间间隔Δt至少为15min；为了聚类后的每个类别具有足够的样本数，采样次数n至少大于1000。

进一步的，所述步骤3具体包括如下步骤：

步骤3.1：由步骤2得到的历史样本包含多个属性，过多的属性之间出现信息冗余，导致后续的计算量增加，影响样本相似性的判断，因此，对所述的历史样本采用主成分分析法进行降维处理；

步骤3.2：经由步骤3.1降维的历史样本矩阵，采用K-means方法聚类，得到K个聚类类别，分别代表不同的风况信息；

步骤3.3：根据步骤3.2的聚类结果，对历史样本进行分类，即根据历史样本的K个类别，所有历史信息也被划分为K个类别，代表K类不同的风况。

进一步的，所述步骤3.2采用K-means方法聚类，得到K个聚类类别的具体过程如下：

步骤3.2.1确定k-means聚类的损失函数；所述方法使用欧式距离作为聚类判断基准的离差平方和作为损失函数：其中，L为损失函数，G_i为k个聚类的类别，SSE为k个类内离差平方和，d²(·)即为欧式距离的计算公式；

步骤3.2.2：初始化聚核，随机从样本点中初始选择K个点作为K类的集聚中心；

步骤3.2.3：计算样本集中其他数据和聚类中心的距离并以此作为划分其他数据的归属的依据；

步骤3.2.4：计算每一类数据距离聚类中心点的平均距离，并据此作为重新划分K个聚类中心的依据；

步骤3.2.5：重复所述步骤3.2.3和所述步骤3.2.4，直到数据划分收敛或数据中心的划分不再改变，即得到最佳聚类结果；

步骤3.2.6：根据测试数据集最终预测结果的平均绝对误差最小的类别作为K值。

进一步的，所述步骤4具体包括如下步骤：

步骤4.1：对每一类的数据，建立支持向量机模型，支持向量机模型需要确定待学习参数ω和部分超参数，如核函数带宽、松弛因子、惩罚参数等，超参数的设定对于模型学习输入和输出的非线性关系有直接的影响，通常在模型计算开始前通过人工或智能算法设定；

步骤4.2：对于每一个支持向量机模型，用布谷鸟搜索算法确定惩罚系数和核函数带宽超参数，建立经布谷鸟搜索算法优化的支持向量机模型；

步骤4.3：对优化之后的支持向量机模型，使用对应类别的历史信息作为输入，当前功率作为输出对模型进行超短风功率期预测训练，得到风功率超短期预测模型。

进一步的，所述步骤4.1中建立支持向量机模型的具体过程为：

步骤4.1.1：建立历史信息作为输入，当前时刻功率P_t作为输出的预测模型，表示为其中，ω为待学习的参数，其维数为高维特征空间中的维数，为输入的历史信息，维度为历史信息的维度，b为位移项；

步骤4.1.2：根据支持向量机模型的KKT条件约束，通过拉格朗日法设置Lagrange乘子并且将原始问题转化为其对偶问题，求解对偶问题的最优解，得到模型的数学表达式：其中格朗日乘子α⁺≥0，α^-≥0，x_i，x_j为m个输入元素中的任意两个，为核函数，σ为带宽参数，计算二者在高维空间中的向量积；b偏置项并表示为：

式中，N_sv为支持向量，ε为超平面两侧设置的间隔带。

进一步的，所述步骤4.2用布谷鸟搜索算法确定惩罚系数和核函数带宽超参数的过程为：

步骤4.2.1：布谷鸟搜索的三个前提：1)每只布谷鸟每次只下一个蛋，随机将其放入寄主巢中；2)保存有最优蛋的最佳巢会被带到下一代；3)可用的寄主巢数量固定为n，寄主以概率P_a发现寄生的蛋；

步骤4.2.2：设定待优化的目标函数或目标量f(x)，称为适应度函数，所述方法中，为风功率的预测结果与实际值之间的平均绝对误差MAE；设定繁殖后代的巢穴数，一个巢穴仅存放布谷鸟的一个后代；x＝(x₁，x₂，...，x_D)是目标函数的D维待求解向量，所述方法中，为惩罚系数与核函数带宽二维量，在布谷鸟搜索中，称为后代；最初的后代随指定；

步骤4.2.3：通过Levy Flight策略在全局搜索新的后代；

步骤4.2.4：寄主以固定的概率P_a发现被寄生的后代并决定保留还是抛弃；

步骤4.2.5：计算新后代的适应度值，检测是否达到全局最大迭代次数或全局最优，若是，则找到最优后代；若不是，则跳回步骤5.2.3，直到满足结束条件。

进一步的，步骤5中当前时刻的功率P′_t的预测具体过程如下：

步骤5.1：P′_t的数值未知，需要预测，但其历史信息可以从采样的数据获取，按照步骤2的结果，选取P′_t对应的属性值构造与之对应的历史样本；

步骤5.2：将P′_t对应的历史样本标注，并与步骤3的其余训练样本结合在一起构成历史样本矩阵，根据步骤3的处理方法，对该历史样本矩阵降维并聚类成K个类别；

步骤5.3：找出P′_t所在的类别，将该类别中，除P′_t之外的当前时刻功率作为输出，与之对应的历史信息作为输入，按照步骤4的方法，训练并得到该类别经布谷鸟算法优化的支持向量机模型，即：风功率超短期预测模型；

步骤5.4：将P′_t对应的历史信息，输入到步骤5.3的风功率超短期预测模型中，得到P′t的值即为待预测时间处的功率值。

本发明的优点和有益效果在于：

本发明提供一种考虑历史样本相似性的风功率预测方法，该方法通过构造代表当前时刻的历史样本，将自然环境下的复杂、非线性、非平稳风况信息，通过聚类算法和机器学习算法进行聚类，将风功率的的历史信息分为几类，每一类代表不同类型的风况类别。对同类别的风况用历史信息建立支持向量机模型，并用布谷鸟搜索算法寻找模型的最优超参数，对待预测的风功率进行预测。

支持向量机以非常规的结构风险最小化为优化目标，利用核函数降低维度计算，在解决非线性回归问题上有很高的效率和准确度。选择相似性较高的样本训练和学习，与全部数据采用同一模型训练和学习相比，避免了无法反应所有外部信息以及过拟合等问题，能有效提升预测的精度，从而提高风电的消纳能力，具有减少过拟合、减少计算量、鲁棒性高、预测结果精度高的优点，更适合对功率进行预测。

附图说明

图1为本发明所述方法的流程图；

图2为布谷鸟搜索算法的流程图；

图3为本发明所述方法聚类得到不同类别的MAE值。

具体实施方法

下面结合附图和实施例，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

根据图1所示的流程图所示，一种考虑历史样本相似性的风功率预测方法，包括以下步骤：

步骤1：通过测风塔或数值天气预报系统收集原始的历史气象数据，通过风电场管理系统收集对应时刻的风电出力数据等历史信息；

采样的历史气象数据信息包括风速S、风向D、温度T、气压P、湿度H、功率P等。根据风电场发电上网要求，历史数据的采样时间间隔Δt至少为15min；为了聚类后的每个类别具有足够的样本数，采样次数n至少大于1000。

步骤2：利用采样的历史数据构造用于分析风况相似性的历史样本；

注意所述历史样本与历史信息之间的异同：历史样本是经过分析相关性而构造的包含部分历史信息的用于分类风况类别的样本；而历史信息指在时刻t之前的采样信息，包括t-1、t-1、...、t-n时刻的功率、风速、温度、气压，历史信息和历史样本对应相同的当前时刻功率P_t。

步骤2具体为：

步骤2.1：分析当前时刻的功率P_t与历史气象因子之间以及历史功率值之间的相关性，大小通过Pearson相关系数确定。P_t作为Pearson系数计算中的一个变量，其余的历史信息变量包括P_t-1，P_t-2，...以及风速S_t-1，S_t-2，...温度T_t-1，T_t-2，...等。

将当前时刻功率P_t看作变量X，其余历史信息属性分别作为变量Y，得到的Pearson系数表为：

历史信息	S<sub>t</sub>	S<sub>t-1</sub>	...	S<sub>t-4</sub>	D<sub>t</sub>
						ρ<sub>XY</sub>	0.905	0.892	...	0.851	0.105

步骤2.2：选定相关性较大的属性构成历史样本。通过步骤2.1的结果，选定相关性阈值，大于阈值的属性组合构成当前功率P_t的历史样本。

例如：设定阈值后，取风速的8个历史量、功率的8个历史量等共24个基本属性作为与当前功率相对应的历史样本，所有的历史样本一起，构成历史样本矩阵

步骤3.1：由步骤2得到的历史样本矩阵包含24个属性，过多的属性之间信息冗余，增加了后续的计算量，对相似性的判断产生影响，因此采用主成分分析法，将原始24维历史样本用5维的主成分量表示

步骤3.2：经由步骤3.1降维的历史样本矩阵，采用K-means方法聚类，得到K个聚类类别，分别代表不同的风况信息。进一步地，所述使用K-means聚类方法确定出K个类别的具体过程如下：

步骤3.2.1：确定k-means聚类的损失函数；所述方法使用欧式距离作为聚类判断基准的离差平方和作为损失函数：其中,G_i为聚类结果，d²(·)即为欧式距离的计算公式，x_j为降维后的历史样本矩阵中的分量。

步骤3.2.2：初始化聚核，随机从样本点中初始选择K个点作为K类的集聚中心。

步骤3.2.3：计算样本集中其他数据和聚类中心的距离并以此作为划分其他数据的归属的依据。

步骤3.2.4：计算每一类数据的平均值，并据此作为重新划分K个聚类中心的依据。

步骤3.2.5：重复所述步骤3.2.3和所述步骤3.2.4，直到数据划分收敛或数据中心的划分不再改变，即得到最佳聚类结果。

步骤3.2.6：针对不同地区的风况，最优聚类中心K的取值可能有所差异。因此，所述方法根据测试数据集最终预测结果的平均绝对误差最小的类别作为K值。

步骤3.4：根据步骤3.3的聚类结果，对历史样本进行分类。即根据历史样本的K个类别，所有历史信息也被划分为K个类别，代表K类不同的风况。

步骤4：对聚类得到的不同风况，使用历史信息作为输入，当前功率作为输出，分别建立经布谷鸟搜索算法(如图2所示)优化的支持向量机模型，实现风功率超短期预测。

步骤4.1：对每一类的数据，建立支持向量机模型。进一步地，所述建立支持向量机模型的具体过程如下：

步骤4.1.1：建立历史信息作为输入，当前时刻功率P_t作为输出的预测模型，表示为其中，ω为待学习的参数，其维数为高维特征空间中的维数，为输入的历史信息，维度为历史信息的维度，b为位移项。

步骤4.1.2：根据支持向量机模型的KKT条件约束，通过拉格朗日法设置Lagrange乘子并且将原始问题转化为其对偶问题，求解对偶问题的最优解，得到模型的数学表达式：其中，x_i，x_j为m个输入元素中的任意两个，为核函数，σ为带宽参数，计算二者在高维空间中的向量积；b偏置项并表示为：

式中，N_sv为支持向量，ε为超平面两侧设置的间隔带。

步骤4.2：对于每一个支持向量机模型，使用布谷鸟搜索算法搜索优化支持向量机超参数，例如惩罚系数和核函数带宽等超参数。

支持向量机模型除了待学习参数ω，还有部分超参数如核函数带宽、松弛因子、惩罚参数等需要确定。超参数的设定对于模型学习输入和输出的非线性关系有直接的影响，通常在模型计算开始前通过人工或智能算法设定。进一步地，所述用布谷鸟搜索算法确定惩罚系数和核函数带宽超参数具体过程如下：

步骤4.2.1：布谷鸟搜索的三个前提：1)每只布谷鸟每次只下一个蛋，随机将其放入寄主巢中；2)保存有最优蛋的最佳巢会被带到下一代；3)可用的寄主巢数量固定为n，寄主以概率P_a发现寄生的蛋。

步骤4.2.2：设定待优化的目标函数或目标量f(x)，称为适应度函数，所述方法中，为风功率的预测结果与实际值之间的平均绝对误差MAE；设定繁殖后代的巢穴数，一个巢穴仅存放布谷鸟的一个后代；x＝(x₁，x₂，...，x_D)是目标函数的D维待求解向量，所述方法中，为惩罚系数与核函数带宽二维量，在布谷鸟搜索中，称为后代；最初的后代随指定。

所述方法可设置如下的初始化数值：以每一类测试集的预测结果的统计平均绝对误差为优化目标，初始种群数为20，最大迭代次数为40次，鸟蛋发现概率P_a＝0.25，搜索范围为[0.01，100]，目标的维度为2，分别代表支持向量机的惩罚参数以及核函数带宽。

步骤4.2.3：通过莱维飞行策略在全局搜索新的后代；

设第t轮的x_i迭代值为全局寻优的莱维飞行策略为：

式中，为向量点乘符号，α是步长缩放因子，用于控制搜索范围，计算方法为 x_t，best为当前t轮迭代的最优解，α₀为常数；L(λ)为符合Levy Flight路径的分布。

基于第三条规则，寄生的子代以概率P_a被发现，寄主可以选择抛弃或者重新筑巢以得到。即迭代的新解有P_a的概率被替换

式中，γ为步长因子服从标准正态分布，用以控制新解被替换的情况，是第t轮迭代中的随机两个解。

步骤5：实时超短期风功率预测。

将待预测的目标时间处功率看作当前时刻的功率P′_t，采集当前时刻最近的历史风况和历史功率数据。采样时间间隔与步骤1中的历史时间序列数据集的采样时间间隔Δt一致，当前时刻功率的预测具体过程如下：

步骤5.1：P′_t的数值未知，需要预测，但其历史信息可以从采样的数据获取。按照步骤2的结果，选取P′_t对应的属性值构造与之对应的历史样本；

步骤5.2：将P′_t对应的历史样本标注，并与步骤3的其余训练样本结合在一起构成历史样本矩阵。根据步骤3的处理方法，对该历史样本矩阵降维并聚类成K个类别；

步骤5.3：找出P′_t所在的类别，将该类别中，除P′_t之外的当前时刻功率作为输出，与之对应的历史信息作为输入，按照步骤4的方法，训练并得到该类的经布谷鸟算法优化的支持向量机模型；

步骤5.4：将P′_t对应的历史信息，输入到步骤5.3的支持向量机模型中，得到P′_t的值即为待预测时间处的功率值。

从图3的不同聚类预测结果MAE值可以看出，没有经过聚类，即只有一个类别的情况下，平均MAE值在10.00左右；当分类的类别数增大时，MAE值下降20％以上。由此可得，本文所述发明在对超短期风功率预测上，可提高预测精度，取得较好的预测改进效果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种考虑历史样本相似性的超短期风功率预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1中所述历史气象数据和风电场出力数据在采样时间点上一一对应，根据风电场发电上网要求，历史数据的采样时间间隔Δt至少为15min；为了聚类后的每个类别具有足够的样本数，采样次数n至少大于1000。

3.根据权利要求1所述的方法，其特征在于，所述步骤3具体包括如下步骤：

4.根据权利要求3所述的方法，其特征在于，所述步骤3.2采用K-means方法聚类，得到K个聚类类别的具体过程如下：

步骤3.2.5：重复所述步骤3.2.3和所述步骤3.2.4,直到数据划分收敛或数据中心的划分不再改变，即得到最佳聚类结果；

5.根据权利要求1所述的方法，其特征在于，所述步骤4具体包括如下步骤：

6.根据权利要求5所述的方法，其特征在于，所述步骤4.1中建立支持向量机模型的具体过程为：

步骤4.1.2：根据支持向量机模型的KKT条件约束，通过拉格朗日法设置Lagrange乘子α_i，并且将原始问题转化为其对偶问题，求解对偶问题的最优解，得到模型的数学表达式：其中格朗日乘子α⁺≥0，α^-≥0，x_i，x_j为m个输入元素中的任意两个，为核函数，σ为带宽参数，计算二者在高维空间中的向量积；b偏置项并表示为：

式中，N_sv为支持向量，ε为超平面两侧设置的间隔带。

7.根据权利要求5所述的方法，其特征在于，所述步骤4.2用布谷鸟搜索算法确定惩罚系数和核函数带宽超参数的过程为：

步骤4.2.2：设定待优化的目标函数或目标量f(x)，称为适应度函数，所述方法中，为风功率的预测结果与实际值之间的平均绝对误差MAE；设定繁殖后代的巢穴数，一个巢穴仅存放布谷鸟的一个后代；x＝(x₁，x₂，…，x_D)是目标函数的D维待求解向量，所述方法中，为惩罚系数与核函数带宽二维量，在布谷鸟搜索中，称为后代；最初的后代随指定；

步骤4.2.3：通过Levy Flight策略在全局搜索新的后代；

8.根据权利要求1所述的方法，其特征在于，步骤5中当前时刻的功率P′_t的预测具体过程如下：

步骤5.4：将P′_t对应的历史信息，输入到步骤5.3的风功率超短期预测模型中，得到P′_t的值即为待预测时间处的功率值。