CN113591399A

CN113591399A - 一种短期风功率预测方法

Info

Publication number: CN113591399A
Application number: CN202110966330.6A
Authority: CN
Inventors: 张靖; 叶永春; 范璐钦; 何宇; 谭真奇; 马覃峰
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-02
Anticipated expiration: 2041-08-23
Also published as: CN113591399B

Abstract

本发明公开了一种短期风功率预测方法，包括：采集风功率数据，将风功率数据划分为训练集和测试集；基于SVM核函数与Stacking集成学习算法构建第一融合模型、第二融合模型，将训练集作为输入对第一融合模型进行训练获得目标训练集；将测试集输入训练后的第一融合模型获得目标测试集；将目标训练集和目标测试集输入第二融合模型，获得风功率预测结果。本发明通过对风电场输出功率进行预测，可以降低不确定性风险，实现了对风力发电系统更好的组合调度，为电力系统的安全稳定和电能质量提供了保障。

Description

一种短期风功率预测方法

技术领域

本发明属于风电功率测量领域，特别是涉及一种短期风功率预测方法。

背景技术

随着能源与环境问题的逐渐突出，对可再生能源的研究和利用成为全社会广泛关注的热点问题。而风力发电作为安全可靠、无污染、不需消耗燃料、可并网运行的重要可再生能源之一，近年来在世界范围内得到了突飞猛进的发展。世界风力发电从1990年开始了迅猛发展，2018年2月14日，全球风能理事会发布2017年全球风电发展统计数据：2017年全球风电市场新增容量超过52.57GW，全球累计容量达到539.58GW。2017年中国风力发电新增容量19.5GW，占全世界2017年风力发电总新增容量的37％，2017年中国风力发电累计容量188.19GW，占全世界风力发电总累计容量的34.87％。

然而风具有不确定性和非平稳性的特点，因此风能是一个波动的电能来源在电力系统中，风力发电的不可调度会给电力系统安全稳定和电能质量造成威胁。因此，风电功率预测特别重要。通过对风电场输出功率的预测，可以降低不确定性风险、更好的对火电机组、水电机组和蓄能电站机组进行调度和组合以及提高风电场参与上网竞价的市场竞争力。因此，风力发电作为发展最快和最成熟的可再生能源发电技术，需要准确的风力发电预测来解决风电输出功率控制、电网安全经济调度以及电力市场环境下风电竞价交易等问题。

发明内容

为解决上述问题，本发明提供了如下方案：一种短期风功率预测方法,包括：

采集风功率数据，将所述风功率数据划分为训练集和测试集；

基于SVM核函数与Stacking集成学习算法构建第一融合模型、第二融合模型，将所述训练集作为输入对所述第一融合模型进行训练获得目标训练集；将所述测试集输入训练后的第一融合模型获得目标测试集；

将所述目标训练集和所述目标测试集输入所述第二融合模型，获得风功率预测结果。

优选地，所述Stacking集成学习算法包括样本空间、输入空间、假设空间、输出空间和版本空间；

所述样本空间为输入特征的全组合数据；所述输入空间对应原始数据的输入条数；所述输出空间对应预测数据的输出条数；所述假设空间为理论上所有存在的样本集合；所述版本空间用于反映泛化能力的强弱。

优选地，所述Stacking集成学习算法还包括基模型、元模型、最大泛化正假设边界、最大精确正假设边界；

通过所述基模型获得第一融合模型，通过所述元模型获得第二融合模型，所述最大泛化正假设边界代表所述输出空间，根据所述最大泛化正假设边界和所述最大精确正假设边界获得所述版本空间。

优选地，通过所述基模型获得第一融合模型包括输入所需变量对所述基模型进行训练，所述变量包括历史信息、天气信息、日历规则。

优选地，所述SVM核函数至少包括Linear核函数、RBF核函数、Poly核函数、Sigmoid核函数；

其中，所述Linear核函数用于解决线性问题；所述RBF核函数、所述Poly核函数、Sigmoid核函数用于解决非线性问题。

优选地，获得所述目标训练集还包括，采用k折交叉验证法将所述训练集进行划分；通过留一法对所述SVM核函数进行训练，基于改进人工鱼群算法对训练后的SVM核函数的所述基模型寻找最优超参数。

优选地，寻找所述最优超参数包括，所述改进人工鱼群算法通过觅食、聚集、追尾和随机行为对所述基模型进行状态迭代，每次迭代完成将当前状态与预设状态进行比较，低于所述预设状态进行替代，直至迭代结束，获得所述最优超参数。

优选地，所述预测结果通过预测评价指标来表示；

所述预测评价指标包括平均绝对百分比误差、均方根误差。

本发明公开了以下技术效果：

本发明提供的一种短期风功率预测方法，通过对风电场输出功率进行预测，可以降低不确定性风险，实现了对风力发电系统更好的组合调度，为电力系统的安全稳定和电能质量提供了保障。

与其他模型相比，本发明提出的Stacking融合模型表现更好的预测结果，对风功率的随机波动也具备更好的拟合效果。本发明提出的Stacking融合模型相较于其他方法而言，第一层基模型层采用并行工作方式，可以使每个基模型都独立的观测出不同的输出空间，保证了每个基模型观测结果的差异性；同时Stacking融合模型第二层元模型层的加入又融合了不同的基模型观测结果，使得预测精度和泛化能力得到较大提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程图；

图2为本发明实施例的Stacking集成学习方法示意图；

图3(a)为本发明实施例的贵州1月风功率概率密度图，图3(b)为本发明实施例的贵州1月log1p()转换概率密度图；

图4(a)为本发明实施例的贵州5月风功率概率密度图，图4(b)为本发明实施例的贵州5月log1p()转换概率密度图；

图5(a)为本发明实施例的贵州8月风功率概率密度图，图5(b)为本发明实施例的贵州8月log1p()转换概率密度图；

图6(a)为本发明实施例的西班牙1月风功率概率密度图，图6(b)为本发明实施例的西班牙1月log1p()转换概率密度图；

图7(a)为本发明实施例的西班牙5月风功率概率密度图，图7(b)为本发明实施例的西班牙5月log1p()转换概率密度图；

图8(a)为本发明实施例的西班牙8月风功率概率密度图，图8(b)为本发明实施例的西班牙8月log1p()转换概率密度图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供了一种短期风功率预测方法,通过采用异质基模型的Stacking集成学习方法作为研究短期风功率预测的框架模型，同时选择多个不同的SVM作为Stacking集成学习预测模型第一层的基模型来克服SVM核函数难以选取的问题，同时由于Stacking集成学习方法本身的特性会将多个基模型融合以提升整体的学习能力，这种训练方式可以解决单一模型存在的自身学习能力上限不足的问题。

Stacking集成学习包括：样本空间、输入空间、假设空间、输出空间和版本空间。输入空间和输出空间分别对应着原始数据输入的条数和预测数据输出的条数，样本空间为输入特征的全组合数据，假设空间是指理论上所有的可能存在的样本集合，即在样本空间的基础上加上特征不存在的极端情况，版本空间反映泛化能力的强弱。

从假设空间(理论上所有特征构成的集合空间)的角度分析，由于有限的样本和庞大的假设空间会使得输入到输出的映射并不完全，从而导致预测精度不高。但不同核函数SVM从不同的数据空间角度(维度)和数据结构角度(线性与非线性)对样本进行观测的结果不同，Stacking集成学习方法将不同的观测结果进行总结归纳可以最大程度的覆盖整个假设空间，提高预测精度。同时，有限的样本会存在多个假设与训练集一致的情况，版本空间(这类假设的集合)越大泛化能力越弱，Stacking集成学习方法将每个SVM的版本空间进行学习可以缩小整个模型的版本空间，提高泛化能力。

如图2所示的Stacking集成学习算法的框架，图中四个基模型通过集成学习得到最终的集成学习结果，GB为最大泛化正假设边界，代表着模型的输出空间，SB是最大精确正假设边界，GB和SB所围成的区域就是版本空间，代表着模型的泛化能力。对于同一组训练数据，由于四个基模型存在的差异性，输出空间并不相同，通过Stacking集成学习方法扩大了SB，即提升了风功率预测的精度，同时对4种GB取并集导致GB和SB所围成的版本空间区域缩小，增强了Stacking集成学习模型的泛化能力。

SVM核函数选取；

核函数的选取是SVM的关键问题，不同的核函数会导致预测模型的学习和泛化能力不同，本发明选取以下几种：

1)Linear核：最简单的核函数，即没有进行升维，保持原有的维度进行内积运算，主要用于线性的情形。参数少，速度快，对于一般数据，拟合效果比较理想。Linear核内积表达式如下所示：

K(x₁,x₂)＝<x₁,x₂> (1)

2)RBF核：主要用于非线性的情形，拟合结果非常依赖于参数。可以通过交叉验证来训练数据寻找合适的参数，拟合效果较为理想。RBF核内积表达式如下所示：

3)Poly核：同样可以解决非线性问题，主要适用于正交归一化后的数据。Poly核内积表达式如下所示：

4)Sigmoid核：选取Sigmoid作为核函数时，SVM就成为了一种多层感知器神经网络，隐含层节点数目(确定神经网络的结构)、隐含层节点对输入节点的权值都是在训练的过程中自动确定的，并且SVM的原理是凸二次优化求解的问题，避免了像神经网络一样陷入局部最优，保证了它对于未知样本的良好泛化能力而不会出现过学习现象。Sigmoid核内积表达式如下所示：

K(x₁,x₂)＝tanh(αx^Tx₂+c) (4)

上述Linear核、Poly核和RBF核都是通过空间映射后转化成线性问题进行求解的核函数，Linear核是RBF核的特殊情况，即同等维度的映射。所以Linear核适用于在当前维度下的线性问题，对非线性的情况并不适用，要想对大样本使用Linear核来求解，对于特征的提取要求很高，特征的提取的足够好，包含的信息量足够大，则很多问题都是线性的。Poly核有比较多的参数要选择，对于寻找参数来讲要耗费不少的时间，特别当多项式的阶次比较大时，计算量将变得极为复杂，所以受限于多项式的阶数，Poly核SVM只能进行有限阶次的升维来线性处理问题。RBF核SVM可以映射到无限维空间求解，但参数选取不当容易造成过拟合。Sigmoid核函数SVM作为多层感知器神经网络直接处理非线性问题，没有对样本数据进行线性化处理，与以上三种SVM工作方式完全不同。

综上，Linear核、Poly核、RBF核和Sigmoid核SVM各自的工作方式均存在一定的差异，Linear核、Poly核和RBF核SVM三者在空间维度上完全不同，满足了Stacking集成学习方法基模型之间从不同的数据空间角度学习数据的要求，Sigmoid核SVM没有经过线性处理的步骤之间对非线性数据进行学习，满足了Stacking集成学习方法基模型之间从不同的数据结构角度(线性和非线性的区别)学习数据的要求。

因此，从观测不同数据空间和数据结构角度出发，将分别采用Linear核、Poly核、RBF核和Sigmoid核SVM作为Stacking集成学习方法第一层的基模型。然后根据Stacking集成学习方法第二层的选取规则选用泛化能力强或预测精度高的模型作为第二层元模型，并通过训练比较，将预测精度最高的RBF核SVM作为第二层元模型构成整个Stacking融合模型，此时预测精度将达到最高。考虑到各个模型参数不一致且难以调整的情况，采用改进人工鱼群算法来确定SVM的核系数γ和惩罚参数C，直到得到满意的精度为止。

由于选取几种SVM基模型的核函数不同，因此基模型之间存在一定差异性，具体体现在每个核函数SVM观测数据的空间角度(维度)和结构角度(线性与非线性)不同。Stacking融合模型第一层中由于其独特的并行工作方式，可以使每个基模型都独立的观测出不同的输出空间，保证了每个基模型观测结果的差异性；同时Stacking融合模型第二层元模型层的加入又融合了不同的基模型观测结果，使得预测精度和泛化能力得到较大提高。

具体流程如下：

步骤一：将原始数据划分成训练集和测试集，采用k折交叉验证的方式对训练集进行划分得到k份；

步骤二：通过留一法分别对Linear核、RBF核、Poly核以及Sigmoid核SVM进行训练，同时基于改进人工鱼群算法对四种基模型寻找最优超参数(最大迭代次数20，种群规模为10，觅食最大试探次数为10，拥挤度因子δ为0.623，速度参数c1，c2分别为2、2)，人工鱼通过觅食、聚集、追尾和随机四种行为来寻觅食物，每执行完一次迭代后将自身当前状态(即目标函数，选用e_RMSE作为目标函数值)与预设状态进行比较，如果低于预设状态则将其替代，直至迭代结束得到最优超参数。最后训练结束得到训练集的预测集。

步骤三：将测试集输入到训练过后的基模型中得到测试集的预测集；

步骤四：将步骤三和步骤四得到训练集的预测集和测试集的预测集作为第二层元模型层的输入，用以训练RBF核SVM得到最终的输出。

仿真分析；

选取2018年贵州某地区和2015年西班牙瓦伦西亚市的实际风功率数据展开研究，并对风功率数据进行预处理，其中来自西班牙某地区的风功率数据通过网站检索，仿真结果通过python平台实现，CPU是i7-8700K，显卡是Nvidia RTX2070 super。由于大部分ML模型不善于处理非正态分布数据的情况，尤其是SVM在没有标准化调整过的数据中表现很差，采用log1p()函数(即ln(1+x)函数)对原始样本进行对数转化变成正态分布的数据，此步处理会使后续的预测得到一个更好的结果，如图3-图8所示。

由图3-图8可以看出原始数据存在一定的倾斜，呈现出非正态分布，采用log1p()函数可以进行修正将原始数据转换成正态分布样本，有利于ML模型的训练过程，概率密度函数明显向右倾斜，采用log1p()函数修正倾斜后的概率密度函数，转化成正态分布后倾斜消失，最后通过expm1函数(exp(x)-1)逆运算可以得到预测结果。

对于原始数据中缺失值的处理，选择填充当列的均值来弥补缺失的数据。其中，贵州地区风功率的采样周期为每30min采集一次，每天共计48个采样点；西班牙地区风功率的采样周期为每60min采集一次，每天共计24个采样点。预测评价指标采用平均绝对百分比误差e_MAPE和均方根误差e_RMSE如下所示：

式中：x(i)和y(i)分别表示i时刻的实际值和预测值；n为样本数量。e_MAPE是所有单个观测值与算术平均值的偏差的绝对值的平均，平均绝对误差与平均误差相比，平均绝对误差由于离差被绝对值化，不会出现正负相抵消的情况，因而，平均绝对误差能更好地反映预测值误差的实际情况。e_RMSE是预测值与真实值偏差的平方和观测次数n比值的平方根，在实际测量中，观测次数n总是有限的，真值只能用最可信赖(最佳)值来代替。标准误差对一组测量中的特大或特小误差反映非常敏感，因此，标准差是用来衡量一组数自身的离散程度，而均方根误差是用来衡量观测值同真值之间的偏差。

训练集的输入与特征；

考虑到不同季节、不同月度风功率形态各异，将贵州地区与西班牙地区典型月1月、5月、8月前24天的风功率数据作为训练集，分别对应着冬季，春季，夏季风功率情况，测试集为1月、5月、8月最后7天的风功率数据，检验所提方法的预测效果。在训练第一层的基模型时，首先需要确定输入变量，相关性较高的可选输入变量包括历史信息、天气信息以及日历规则等，如表1所示。

表1

超参数选取；

对于SVM中超参数的选取，一般是三个，即惩罚系数C，核系数gamma(γ)与核函数kernel。C是用来控制损失函数的惩罚系数，理解为调节优化方向中两个指标(间隔大小，拟合精确度)偏好的权重，即对误差的宽容度。C越大，相当于惩罚松弛变量，希望松弛变量接近0，即对软间隔情况的样本惩罚增大，趋向于对训练集全处于硬间隔拟合的情况，这样会出现训练集测试时准确率很高，但泛化能力弱，容易导致过拟合；C值小，对超出ε的惩罚减小，容错能力增强，泛化能力较强，但也可能欠拟合。γ是核函数自带的一个参数，隐含地决定了数据映射到新的特征空间后的分布，gamma越大，σ越小，使得高斯分布又高又瘦，造成模型只能作用于支持向量附近，可能导致过拟合；反之，gamma越小，σ越大，高斯分布会过于平滑，在训练集上拟合效果不佳，可能导致欠拟合。kernel是算法中采用的核函数类型，核函数是用来将非线性问题转化为线性问题的一种方法，由于所提方法已经选定Linear核、Poly核、RBF核和Sigmoid核SVM作为Stacking集成学习的基模型，所以只需要确定C和γ两个参数，其中Linear核SVM是空间映射的特例，直接在当前维度下处理样本，所以不需要确定γ参数。根据贵州地区与西班牙地区两组风功率数据中1、5、8月不同季度的风功率特性，可分别得到3组SVM参数优化结果，如表2所示。

表2

由表2可看出基模型之间参数差异明显，对于同一风功率曲线下不同核函数SVM的最优参数不同的情况，也从侧面说明了几种SVM模型之间的工作方式是不同的，Linear核、Poly核和RBF核SVM是从不同的数据空间角度观测数据，而Sigmoid核SVM是类似于多层感知机直接处理非线性数据，即在观测的数据结构角度上是与上述3种SVM不同的。Stacking融合模型基模型之间的差异性越大，得到的多个基模型的观测结果和版本空间也越不同，也就更有利于融合互补之后的整体融合模型预测能力和泛化能力的提高。

预测结果对比分析；

通过将改进人工鱼群算法和传统人工鱼群算法进行对比可知改进人工鱼群算法优于原始人工鱼群算法。通过引入速度变量代替步长可以加快收敛速度，原始人工鱼群算法在迭代第35次左右达到最优，改进人工鱼群算法迭代到17次左右达到最优。并且步长设定为固定值会在最优解附近震荡，最终集成多个SVM模型会累计产生较大误差，设置速度变量能够精确搜索到全局最优解。因此采用改进人工鱼群算法寻找SVM模型的最优参数，快速寻找全局最优参数保证Stacking融合模型的预测精度达到最佳。

本节将所提方法与SVM、LSTM、RF-Stacking、XGBoost-Stacking等方法进行对比。为了保证所提方法能寻到最优参数，设置的改进人工鱼群的参数如下：最大迭代次数20，种群规模为10，觅食最大试探次数为10，拥挤度因子δ为0.623，速度参数c₁，c₂分别为2、2。经过训练和预测，可以得到3组不同季节的周风功率预测曲线，两个地区不同月份的每周风功率曲线之间存在显着差异。1月25日至1月31日的周风功率曲线在贵州和西班牙是最高的，这可以归因于不同季节的风功率特征。

通过计算得到预测模型误差指标，本发明提出的Stacking融合模型的预测精度要优于其余模型，在贵州的3组周风功率预测指标中e_MAPE最小达到2.5％，最大为2.93％，而SVM的拟合效果是最不理想的，平均比Stacking融合模型高出0.67％，其次是LSTM、RF-Stacking和XGBoost-Stacking。所提Stacking融合模型的e_RMSE最小达到160.82MV，最大为242.14MV，同样优于其余模型e_RMSE指标。在西班牙的3组风功率预测指标中，所提Stacking融合模型e_MAPE最小为0.88％，最大为1.9％，e_RMSE最低达到412.79MV，最高为1195.81MV，要优于其他模型。

进一步分析可知，每个模型均能在66h-78h的平稳时段达到较好的预测结果。但风功率波动较剧烈时，如78h～102h之间，SVM这种单一模型由于自身学习能力不足，对非线性序列的学习能力较弱且容易过拟合，导致预测结果与实际偏差较大。LSTM由于具有长期记忆功能可以很好预测出风功率的变化趋势，但在预测值与实际值间仍存在一定差距。RF-Stacking和XGBoost-Stacking具有集成学习的优势，其预测精度超过了SVM和LSTM，但效果不如本发明所提出的Stacking融合模型。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种短期风功率预测方法,其特征在于，包括：

2.根据权利要求1所述的短期风功率预测方法，其特征在于，

所述Stacking集成学习算法包括样本空间、输入空间、假设空间、输出空间和版本空间；

3.根据权利要求2所述的短期风功率预测方法，其特征在于，

所述Stacking集成学习算法还包括基模型、元模型、最大泛化正假设边界、最大精确正假设边界；

4.根据权利要求3所述的短期风功率预测方法，其特征在于，

通过所述基模型获得第一融合模型包括输入所需变量对所述基模型进行训练，所述变量包括历史信息、天气信息、日历规则。

5.根据权利要求1所述的短期风功率预测方法，其特征在于，

所述SVM核函数至少包括Linear核函数、RBF核函数、Poly核函数、Sigmoid核函数；

6.根据权利要求3所述的短期风功率预测方法，其特征在于，

获得所述目标训练集还包括，采用k折交叉验证法将所述训练集进行划分；通过留一法对所述SVM核函数进行训练，基于改进人工鱼群算法对训练后的SVM核函数的所述基模型寻找最优超参数。

7.根据权利要求6所述的短期风功率预测方法，其特征在于，

寻找所述最优超参数包括，所述改进人工鱼群算法通过觅食、聚集、追尾和随机行为对所述基模型进行状态迭代，每次迭代完成将当前状态与预设状态进行比较，低于所述预设状态进行替代，直至迭代结束，获得所述最优超参数。

8.根据权利要求1所述的短期风功率预测方法，其特征在于，

所述预测结果通过预测评价指标来表示；

所述预测评价指标包括平均绝对百分比误差、均方根误差。