CN104778506B

CN104778506B - 基于局部集成学习的短期风速预报方法

Info

Publication number: CN104778506B
Application number: CN201510147768.6A
Authority: CN
Inventors: 胡清华; 于曼
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2019-03-26
Anticipated expiration: 2035-03-31
Also published as: CN104778506A

Abstract

本发明公开了一种基于局部集成学习的短期风速预报方法，步骤一、采用K近邻算法，找到与被测风速样本点最相似的K个风速样本；步骤二、将每一个风速样本点的局部样本得到相应的风速预测值；步骤三、从步骤二得到的若干风速预测值，采用一定的融合策略将其进行融合，得到当前风速点的预测值。本发明首次提出基于局部集成学习的短期风速预报方法，考虑风速样本变化的复杂性与多样性；给出了局部集成学习算法的数学理论知识；有效获得了不同风速样本间的差异性，针对不同的风速样本点建立不同的风速预报模型，与全局风速预报模型及局部风速预报模型以及全集聚成的风速预报模型相比，预报误差降低10％以上。

Description

基于局部集成学习的短期风速预报方法

技术领域

本发明属于风力发电技术领域，特别是涉及一种基于局部学习的短期风速预报方法。

背景技术

由于能源消耗持续增加、环境污染日益严峻，许多国家大规模地开展了新能源的探索工作，其中风能作为一种重要的可再生资源，越来越受到世界各国的重视。随着风力发电技术的成熟，风电并网时要求风电功率供需必须平衡。然而，风电功率具有很强的波动性和不确定性，这对电网的调度方式、稳性定和高峰调频有重大影响。对风电功率的准确预报有利于电网调度部门及时掌握风电场输出功率情况及时调整调度计划。风速是风电功率的最主要的影响因素，对风速进行准确预报是风功率预报的重要前提。

风速预报方法可大致归纳为：物理预报方法、数据驱动的方法(如时间序列，神经网络，Support Vector Regression等)及融合预报方法。物理方法是根据当地气象信息，计算物理方程式，得到当地风速的数值预报结果，但是物理预报方法耗资巨大，且预报范围相比于风电场要大得多，不适用于风电场范围的风速预报。数据驱动方法以及融合预报方法都是假设所有训练样本是独立同分布的，对所有预测样本建立一个统一的风速预报模型。然而风速的分布是动态变化的，不同时刻的风速存在着差异且风速变化是复杂多样的，采用全局预报方法获得一个单一的复杂的训练模型并不能准确地描述风速之间的复杂关系。后续提出的还有基于聚类的风速预报方法，首先是通过聚类方法将输入空间聚成若干类，然后在每个类上分别建立预报模型以提高风速预报精度，准确知道输入空间聚为多少类并不是一件容易的事情。这种方法对于复杂的预报任务并不是很灵活。后续提出的另一种有效的学习方法是局部学习，即对每一个测试样本在历史样本中寻找相似样本，仅用这些相似样本建立风速预报模型。这是一种简单灵活的方法。但是局部学习具有强大的学习能力，会产生过拟合问题，使得算法泛化能力较差。因此用局部学习算法进行预测，预报结果不能满足实际要求。

发明内容

基于上述现有风速预报方法在技术上的不足，本发明提出了一种基于局部集成学习的短期风速预报方法，从局部学习角度出发，考虑风速变化的复杂性、不确定性，对每一个被测样本点单独建立预报模型。由于局部学习的强大的学习能力，会存在过拟合的问题。我们提出基于局部集成学习算法的短期风速预报方法，旨在进一步提高目前风速预报的准确率。

本发明提出了一种基于局部集成学习的短期风速预报方法，该方法包括以下步骤：

步骤一、采用K近邻算法，对于每一个被测样本点X，通过欧式距离寻找与X最相似的K个风速局部样本点作为X的输入空间，建立当前风速样本点的预报模型，完成对被测风电场未来10分钟的实际风速预报，该当前风速样本点的特征表达式为：

X_i＝{x_i,x_i-1,x_i-2,x_i-3,x_i-4,x_i-5,x_i-6}，y_i＝x_i+1，

x_i表示i时刻的风速值，y_i是X_i对应的下一时刻风速值；风速样本点的特征表达式为

D_n＝{(X₁,y₁),...,(X_i,y_i),...(X_n,y_n)}；

其中x_i表示表示i时刻的风速值，y_i是X_i对应的下一时刻风速值，(X_i,y_i)构成一个特征样本；

步骤二、将每一个当前风速样本点的局部样本送到若干个独立的回归器，得到相应的风速预测值；

其中Bias是相应的偏差，Var是相应的方差，Bias_i与Var_i是相应的第i个基回归器对应的偏差与方差；

假设回归器是无偏估计的，且得到风速预测值表达式：

其中E是集成回归器的泛化误差，M是基回归器的个数，E_i是第i个基回归器对应的泛化误差。集成回归器的泛化误差要小于各基回归器的平均泛化误差；

步骤三、从步骤二得到的若干风速预测值，采用融合策略将其进行融合，得到当前风速点的预测值。

其中a_i是第i个回归器对应的权值，f_i(x)是第i基学习器学到的当前风速样本的预测值；

具体算法包括：对每个风速样本点，在训练过程中得到基回归器的训练误差，将训练误差最小的基回归器对应的预测结果当作当前风速样本点的最终预测值：

其中，terr_{i基回归器}(x)是第i_基回归器个基回归器的训练误差，f_{i基回归器}(x_j)是第i_基回归器基回归器学到的当前风速样本的预测值，y_j是样本x_j的风速真实输出值，x_j(j＝1,…,K)是样本X的中的K个风速局部样本点。

与现有技术相比，本发明具有以下优点：

1)首次提出基于局部集成学习的短期风速预报方法，即考虑风速样本变化的复杂性与多样性；对每一个被测风速样本找到其输入空间，建立相应的回归模型，学习序列之间的内在关系；

2)给出了局部集成学习算法的数学理论知识，局部集成算法的泛化能力小于相应的若干个局部学习算法的平均泛化能力；

3)通过局部集成学习算法，能够有效获得不同风速样本间的差异性，针对不同的风速样本点建立不同的风速预报模型，与全局风速预报模型及局部风速预报模型以及全集聚成的风速预报模型相比，预报误差降低10％以上。

附图说明

图1为本发明方法的流程示意图；

图2为实测原始风速时间序列示意图；

图3为本发明在实际风速预测中的MAE、MAPE、RMSE、SEP随K近邻样本数的变化曲线示意图；

图4为各个回归器在局部集成学习算法中占得比例曲线示意图；

图5为局部集成学习算法与局部学习算法预报效果及相应误差曲线示意图；

图6为局部集成学习算法与全局学习算法预报效果及相应误差曲线示意图；

图7为局部集成学习算法与全局集成学习算法预报效果及相应误差示意图。

具体实施方式

基于局部集成学习的风速预报方法涉及风速预报方法。不同时刻的风速存在着差异性且风速的变化是复杂多样的，采用全局预报方法获得一个单一的复杂的训练模型并不能准确的描述风速之间的复杂关系。局部学习是解决复杂问题的新技术。由于局部学习强大的学习能力，会存在过拟合问题，我们将集成学习融入局部学习，提出局部集成学习算法。对给定的一个样本，首先通过K近邻方法找到与其最相近的K个样本作为当前样本点的训练集，然后将此训练集送到若干独立的基学习器并学到相应的预测结果，采取一定的融合策略得到当前样本点的最终预测结果，提高预报效果。本发明可应用于大规模风力发电领域。

本发明的原理是：使用K近邻算法找到每一个风速样本点的输入空间，对不同的风速样本点学到不同的输入空间。为增强算法泛化能力，引入集成学习，在每一个风速样本的输入空间建立若干个不同的风速模型，并采取一定的融合策略建立最终的回归预报模型。

以下结合附图及具体实施方式，进一步详述本发明的技术方案。

结合图1，对本发明的具体实施方式进行详述。

步骤一、采用K近邻算法，找到与被测风速样本点最相似的K个风速样本点(局部样本)；具体过程是：根据当前时刻与历史风速值，构成当前样本点的特征表达式：D_n＝{(X₁,y₁),...,(X_i,y_i),...(X_n,y_n)}，其中X_i＝{x_i,x_i-1,x_i-2,x_i-3,x_i-4,x_i-5,x_i-6}，y_i＝x_i+1，x_i表示i时刻的风速值，y_i是X_i对应的下一时刻风速值。

对每一个待测风速样本点采用K近邻算法，通过欧式距离来衡量样本间的相似性。在历史风速样本中获得最相似的K个风速样本，将其作为当前样本点的输入空间，对每个风速样本点建立预报模型。

步骤二、将每一个风速样本点的局部样本送到若干个独立的回归器，得到相应的风速预测值；具体过程是：将待测风速样本点的输入空间送到若干个独立的回归器，回归器的选择有很多种，本发明中使用了4种不同类型的回归器，即Least Square Regression，Kernel Ridge Regression，Support Vector Regression，Feed-forward NeuralNetwork。

步骤三、从步骤二得到的若干风速预测值，采用一定的融合策略将其进行融合，得到当前风速点的预测值；具体过程包括：对每个风速样本点，在训练过程中得到基回归器的训练误差，将训练误差最小的基回归器对应的预测结果当作当前风速样本点的最终预测值。

为证明本发明有效性，从泛化误差角度证明了局部集成学习的有效性。引入硬局部邻域函数，

其中c(x,x₀)是样本x₀在样本集x上的邻域样本，k是邻域样本的个数。局部学习的泛化误差是

E_i(x)＝(D(x,x₀；k)(f_i(x)-y))²,

E_i＝∫D(x,x₀；k)E_i(x)p(x,y)dx.

根据‘Bias-variance’分解得到

E_i＝Bias_i ²+Var_i+δ²,

Bias_i＝D(x,x₀；k)(E(f_i(x))-E(f(x))),

Var_i＝E[(D(x,x₀；k)(f_i(x)-E(f_i(x))))²]

局部集成学习的泛化误差是

E＝∫D(x,x₀；k)E(x)p(x,y)d.

根据‘Bias-variance’分解得到

步骤二中假设回归器之间是独立的，得到

假设回归器是无偏估计的，且可以得到

集成回归器的泛化误差要小于各基回归器的平均泛化误差。

为证明本发明的有效性，以被测风电场11个月的逐10分钟的风速数据作训练集，如图2所示，随后的20天的风速数据作为测试集，随着最近邻数K的变化风速预报四个指标MAE、MAPE、RMSE、SEP的变化如图3所示，选取最合适的最近邻数，在被测风电场不同算法的统计效果如表1所示。

表1不同算法在被测风电场的效果对比

从表1中可以看出，局部学习算法相较于全局学习算法在四个指标上有略微下降，说明局部学习在风速预报上是有效的。局部集成学习算法相较于局部学习算法，全局学习算法，全局集成学习算法有明显的优势，与全局的学习算法相比预报误差降低了10％以上。全局集成学习算法相较于局部学习有较好的泛化能力。

图4给出了基回归器在局部集成学习算法中占得比例，不同的基回归器在局部集成学习算法中分别占大小不同的比例，说明从局部学习角度出发对每个样本建模是有意义的，学到一个统一的预报模型并不能反映每一个样本的特性。随后图5,6,7给出了局部集成学习与局部学习算法、全局学习算法、全局集成学习算法在被测风速数据上的效果对比图，上部分是风速对比图，下部分是误差对比图。为图片清晰仅将预测结果的一部分作为有效结果预测。可以看出，本发明的方法较其他对比方法更贴近真实风速曲线，且风速预报误差值相对比较小，局部集成学习算法较局部学习算法有较好的学习能力。

四个指标的公式，其中l是被测样本数目，y_i是第i个样本的真实输出，y_pre是第i个样本的最后预测值，是所有样本的平均值。

Claims

1.一种基于局部集成学习的短期风速预报方法，其特征在于，该方法包括以下步骤：

步骤一、采用K近邻算法，对于每一个被测样本点X，通过欧氏距离寻找与X最相似的K个风速局部样本点作为X的输入空间，建立当前风速样本点的预报模型，完成对被测风电场未来10分钟的实际风速预报，该当前风速样本点的特征表达式为：

X_i＝{x_i,x_i-1,x_i-2,x_i-3,x_i-4,x_i-5,x_i-6}，y_i＝x_i+1

其中，x_i表示i时刻的风速值，y_i是X_i对应的下一时刻风速值；

风速样本点的特征表达式为D_n＝{(X₁,y₁),...,(X_i,y_i),...(X_n,y_n)}，(X_i,y_i)构成一个特征样本；

步骤二、将每一个当前风速样本点的局部样本送到若干个独立的回归器，假设回归器之间是独立的，得到风速预测值表达式：

其中，Bias是相应的偏差，Var是相应的方差，与是相应的第i_基回归器个基回归器对应的偏差与方差；

假设回归器是无偏估计的，且得到风速预测值表达式：

其中，E是集成回归器的泛化误差，M是基回归器的个数，是第i_基回归器个基回归器对应的泛化误差；集成回归器的泛化误差要小于各基回归器的平均泛化误差；

步骤三、从步骤二得到的若干风速预测值，采用融合策略将其进行融合，得到当前风速点的预测值；

其中，是第i_基回归器个回归器对应的权值，f_i(x)是第i_基回归器基回归器学到的当前风速样本的预测值；

其中，i_基回归器＝1,2,3,...,M，是第i_基回归器个基回归器的训练误差，是第i_基回归器基回归器学到的当前风速样本的预测值，y_j是样本x_j的风速真实输出值，x_j(j＝1,…,K)是样本X的中的K个风速局部样本点。