CN106295899A

CN106295899A - 基于遗传算法与支持向量分位数回归的风电功率概率密度预测方法

Info

Publication number: CN106295899A
Application number: CN201610682520.4A
Authority: CN
Inventors: 何耀耀; 李海燕; 刘瑞; 王刚; 郑丫丫; 严煜东; 秦杨
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2016-08-17
Filing date: 2016-08-17
Publication date: 2017-01-04
Anticipated expiration: 2036-08-17
Also published as: CN106295899B

Abstract

本发明公开了一种基于遗传算法与支持向量分位数回归的风电功率概率密度预测方法，其特征是如下步骤进行：1采集风电场输出功率的数据，并进行数据清洗；2样本数据归一化处理，选取训练集和测试集数据；3构建支持向量分位数回归模型；4运用遗传算法优化支持向量分位数回归参数；5建立风电功率概率密度预测模型，得到最终的风电功率预测结果。本发明能通过遗传算法全局搜索寻优，提高风电功率的预测精度，且能够量化风电功率的不确定性，为风电并入的安全稳定运行提供了依据。

Description

基于遗传算法与支持向量分位数回归的风电功率概率密度预测方法

技术领域

本发明属于风电功率技术领域，主要涉及一种基于遗传算法与支持向量分位数回归的风电功率概率密度预测方法。

背景技术

风能是一种清洁、永久的可再生性新能源，随着化石燃料的急速消耗和能源需求的不断增加，其开发和利用受到各个国家的广泛重视。近年来风力发电技术逐渐成熟，风能已经成为一种传统能源的补充能源，在可再生能源中增长速度最快。但由于风力发电是随机的，具有极大的不确定性，大规模的风电并网为电力系统的稳定运行带来了巨大的挑战。准确有效的电功率预测结果可以帮助电力部门合理的制定调度计划，降低风电并入电网的风险，同时减小系统备用容量等运行成本。

风电功率易受天气突变、风电机维修、停机及数据抄录等因素的影响，收集到的风电功率数据集中可能存在缺失值和异常值，从而影响风电功率预测的精度。但目前的研究都是仅对数据集进行异常指识别和清洗，或直接用收集的数据进行预测，没有将清洗后正常的风电功率数据用于风电功率预测中，得到的风电功率预测精度相对较低。

另一方面，目前关于风电功率预测方面的论文主要是研究风电场在未来某一时刻点的输出值或预测区间，而风电场输出功率易受到天气、风速、风向以及风电机等因素的影响，因此获得的点预测和预测区间结果可靠性较低，不利于电力系统经济稳定的运行。

决策者在进行合理的风险评估和决策分析，需要获取更多有用的风电功率信息，量化风电功率的不确定性。通过风电功率概率密度预测可获得更多的有用信息，但是目前关于概率密度预测的研究大都是通过假设风电功率的预测误差分布来构建概率预测模型，但实际中很难有与假设相同的分布，参数选择和计算比较复杂。

发明内容

本发明为克服现有预测方法可靠性低，而且计算复杂等不足之处，提出了一种基于遗传算法与支持向量分位数回归的风电功率概率密度预测方法，以期能通过遗传算法全局搜索寻优，提高风电功率的预测精度，且能够量化风电功率的不确定性，为风电并入的安全稳定运行提供了依据。

本发明为解决技术问题采用如下技术方案：

本发明一种基于遗传算法与支持向量分位数回归的风电功率概率密度预测方法的特点是按照以下步骤进行：

步骤1、采集风电功率的数据，并进行数据清洗：

步骤1.1、采集风电功率的历史数据组成原始数据集L，记为L＝(l₁,l₂,…,l_i,…,l_N)，l_i为所述原始数据集L中第i个时刻点的风电功率数据，1≤i≤N，N为所述原始数据集的时刻点总数；

步骤1.2、检查所述原始数据集L中是否存在缺失值，若存在缺失值，则利用B-样条插值对所有缺失值进行插补，从而得到完整的数据集为所述完整的数据集L^*中第i个时刻点的风电功率数据；

步骤1.3、定义修正次数为a，并初始化a＝0；

步骤1.4、以所述完整的数据集作为第a次校验的数据集；

步骤1.5、利用四分位数法检验所述第a次校验的数据集中是否存在异常值，若存在异常值，则利用所述B-样条插值法修正所述异常值，从而得到第a+1次更新后的数据集为第a+1次更新后的数据集中第i个时刻点的风电功率数据；以所述第a+1次更新后的数据集作为第a+1次校验的数据集；

步骤1.6、将a+1赋值给a并返回步骤1.5执行，直到第A次更新后的数据集中不存在异常值为止，从而完成数据清洗；为第A次更新后的数据集中第i个时刻点的风电功率数据；

步骤2.样本归一化处理，并确定训练集和测试集：

步骤2.1、对所述第A次更新后的数据集L^A作归一化处理，获得归一化后的数据集L′＝(l′₁,l′₂,…,l′_i,…,l′_N)，l′_i为归一化后的数据集L′中第i个时刻点的数据；

步骤2.2、将所述归一化后的数据集L′中的数据进行滚动排列，得到N₁×(d+1)维矩阵；

步骤2.3、将所述N₁×(d+1)维矩阵划分为训练集和测试集，所述训练集记为表示所述训练集中第j行输入的d维行向量，表示所述训练集中第j行的一维实际输出值；所述测试集表示所述测试集中第k行输入的d维行向量，表示所述测试集中第k行的一维实际输出值，并有：N^train+N^test＝N₁；

步骤3.构建支持向量分位数回归模型：

步骤3.1、将所述训练集第j行输入的d维行向量分别作为训练输入变量的第j个线性成分x_j和第j个非线性成分p_j，将所述训练集中第j行的一维实际输出值作为第j个训练实际输出值y_j，建立如式(1)所示的支持向量分位数回归模型：

式(1)中，T为转置；τ_r表示第r个分位点，且τ_r∈(0,1)，r＝1,2,…,N_τ；N_τ表示分位点的个数；表示第r个分位点τ_r下的参数向量，表示第r个分位点τ_r下的阈值；C为惩罚参数，为第r个分位点τ_r下的系数向量，表示非线性映射函数，表示检验函数；并有：

ρ_{τ_{r}} (u) = \{\begin{matrix} τ_{r} u, & u &GreaterEqual; 0 \\ (τ_{r} - 1) u, & u < 0 \end{matrix} - - - (2)

式(2)中，

步骤3.2、对如式(1)所示的支持向量分位数回归模型引入松弛变量，构建Lagrange函数，从而求解式(1)得到式(3)所示的第r个分位点τ_r下的参数向量阈值和系数向量

式(3)中，ε,ε^*为最优Lagrange乘子向量，ε_j,为第j个最优Lagrange乘子；设计矩阵且j∈I；I为支持向量的下标集y＝{y_j|j∈I}，K为核矩阵，并有：v∈I；σ²表示自由参数；

步骤4.通过遗传算法优化所述支持向量分位数回归模型中的惩罚参数C及自由参数σ²：

步骤4.1、初始化种群：

通过随机方法初始化支持向量分位数回归模型中惩罚参数C及自由参数σ²所组成的种群s_t为种群中的第t个个体，1≤t≤n_s，并有C_t表示第t个个体的惩罚参数；表示第t个个体的自由参数，n_s为种群的规模；

步骤4.2、运用训练集L_train训练所述支持向量分位数回归模型，得到训练后模型输出的上界和下界表示第j行的输出上界，表示第j行的输出下界，从而建立如式(4)所示的适应度函数：

\begin{matrix} \min & P I N A W + μ (P I C P) (β_{1} Σ_{j = 1}^{N_{L}} (y_{j}^{L} - y_{j}^{t r a i n}) β_{2} Σ_{j = 1}^{N_{U}} (y_{j}^{t r a i n} - y_{j}^{U})) \end{matrix} - - - (4)

式(4)中，N_L表示第j行的一维实际输出值小于第j行的输出下界的个数；N_U表示第j行的一维实际输出值大于第j行的输出上界的个数；β₁表示第j行的一维实际输出值小于第j行的输出下界的惩罚系数；β₂表示第j行的一维实际输出值大于第j行的输出上界的惩罚系数；

PICP表示训练输出区间的覆盖概率，并有δ_j表示布尔值；若第j行的一维输出值则；令δ_j＝1，否则，令δ_j＝0；

μ(·)表示置信度函数，当PICP＜v时，μ(PICP)＝1，否则μ(PICP)＝0，υ表示置信度；

PINAW表示训练输出区间平均带宽，并有R_C表示训练输出区间的上界最大值与下界最小值之间的差值，

步骤4.3、计算种群中个体的适应度值，找出适应度值最优的个体及对应的惩罚参数和自由参数，作为当前局部最优值；

步骤4.4、对种群中的个体进行交叉和变异操作，从而生成下一代种群；

步骤4.5、对下一代种群重复进行步骤4.3的操作，得到下一代的局部最优值，并与当前局部最优值进行比较，选取最优值来更新当前局部最优值；直至相邻两代的局部最优值之间的绝对误差在所规定的范围内；从而得到全局最优值s_best及其对应的惩罚参数C_best和自由参数

步骤4.6、将所述全局最优值s_best所对应的惩罚参数C_best和自由参数代入所述支持向量分位数回归模型，并将所述测试集中第k行输入的d维行向量作为测试输入变量的第k个线性成分x_k和第k个非线性成分p_k，从而利用式(5)得到测试集中第r个分位点τ_r下的第k行输出值

Q_{y_{k}} (τ_{r} | p_{k}, x_{k}) = b_{τ_{r}} + α_{τ_{r}}^{T} p_{k} + K_{k} (ϵ - ϵ^{*}) - - - (5)

式(5)中，K_k表示核矩阵K的第k个行向量；

步骤5.运用核密度估计对风电功率进行概率密度预测：

步骤5.1、令第k个时刻的第r个分位点τ_r下的预测结果为：从而获得第k个时刻下所有分位点下的预测结果进而得到风电功率的测试输出值

步骤5.2、利用式(6)得到的第k个时刻第w个分位点τ_w所对应的概率密度函数值

{\hat{f}}_{h} (z_{k, w}) = \frac{1}{N_{τ} h} Σ_{r = 1}^{N_{τ}} K_{1} (\frac{z_{k, w} - z_{k, r}}{h}) - - - (6)

式(6)中，z_k,w表示第k个时刻的第w个分位点τ_w下的预测结果；w＝1,2,…,N_τ；h是窗宽，K₁(η)是Epanechnikov核函数，并有：其中，

步骤5.2、求取式(7)的最小值，得到最小值所对应的Epanechnikov核函数K₁(η)的最优窗宽h^*：

\begin{matrix} \min & \frac{1}{N^{t e s t} h^{2} Σ_{λ = 1}^{N^{t e s t}} Σ_{k = 1}^{N^{t e s t}} \overset{&OverBar;}{K} (Z_{λ} - Z_{k})} - \frac{2}{N^{t e s t} (N^{t e s t} - 1)} Σ_{λ = 1}^{N^{t e s t}} Σ_{k = 1}^{N^{t e s t}} K_{1} (Z_{λ} - Z_{k}) - - - \end{matrix} (7)

式(7)中，表示Epanechnikov核函数的卷积，并有：其中，ξ＝Z_λ-Z_k；

步骤5.3、根据Epanechnikov核函数K₁(η)和所述最优窗宽h^*求取风电功率的概率密度预测结果。

与已有技术相比，本发明有益效果体现在：

1、本发明选取清洗后的风电功率数据与遗传算法、支持向量分位数回归法方相结合，以期能得到模型的最优参数，进而获得较为精确的预测结果，同时利用核密度估计函数，获取风电功率的概率密度函数，简化了模型训练中的参数选择问题，有效减少了复杂的模型计算；不仅能得到较精确的点预测结果和预测区间，还可获得未来任意时刻点下完整的风电功率概率密度曲线等更多的信息，为量化风电功率的不确定性提供技术支持。

2、针对风电功率中存在缺失值和异常值这一特点，本发明通过四分位法和B-样条插值法对数据进行清洗，根据获得的新数据构建预测模型，提高了预测的精度。

3、本发明所选用的支持向量分位数回归模型可解决多维的、复杂非线性回归问题，计算简单，可直接输出风电功率在不同分位点下的预测值；同时遗传算法具有优越的全局搜索能力且灵活性强，通过遗传算法获取模型的最优参数，得到准确的点预测结果和预测区间，可以减少系统备用容量，降低了电力系统的运行成本。

4、本发明利用不同分位点下的预测结果与Epanechnikov核密度估计函数结合，对风电功率进行概率密度预测，为电力系统提供更多的有用信息，便于决策者进行科学合理的决策。

附图说明

图1为本发明方法整体流程图；

图2为本发明方法详细流程图；

图3为本发明方法的众数预测结果、上分位点和下分位点的预测结果；

图4为本发明方法的最后8小时的概率密度预测结果。

具体实施方式

本实例中，一种基于遗传算法与支持向量分位数回归的风电功率概率密度预测方法，整体流程图如图1所示，先对收集的风电功率数据集进行清洗，并对清洗后的数据集归一化处理，选取训练集和测试集数据；然后利用遗传算法全局搜索寻优，求取支持向量分位数回归模型的最优参数，并重构预测模型，最终根据核密度估计函数得到未来不同时刻点下风电功率的概率密度函数；具体地说，如详细流程图2所示，按照以下步骤进行：

步骤1、采集风电功率的数据，并进行数据清洗：该阶段主要是为获取用于预测的正常风电功率数据集。

步骤1.1、采集风电功率的历史数据组成原始数据集L，记为L＝(l₁,l₂,…,l_i,…,l_N)，l_i为原始数据集L中第i个时刻点的风电功率数据，1≤i≤N，N为原始数据集的时刻点总数；

步骤1.2、检查原始数据集L中是否存在缺失值，若存在缺失值，则利用B-样条插值对所有缺失值进行插补，从而得到完整的数据集为完整的数据集L^*中第i个时刻点的风电功率数据；

步骤1.3、定义修正次数为a，并初始化a＝0；

步骤1.4、以完整的数据集作为第a次校验的数据集；

步骤1.5、利用四分位数法检验第a次校验的数据集中是否存在异常值，将完整的数据集L^*的下四分位数记为p₁，完整的数据集L^*的上四分位数记为p₂，判断完整的数据集L^*中的每一个数据是否在区间[p₁-1.5×(p₂-p₁)，p₂+1.5×(p₂-p₁)]内，若在区间内，则为正常值，否则为异常值。若存在异常值，则利用B-样条插值法修正异常值，从而得到第a+1次更新后的数据集为第a+1次更新后的数据集中第i个时刻点的风电功率数据；以第a+1次更新后的数据集作为第a+1次校验的数据集；

步骤2.样本归一化处理，并确定训练集和测试集：

步骤2.1、对第A次更新后的数据集LA作归一化处理，将数据映射到[0,1]范围中，获得归一化后的数据集L′＝(l′₁,l′₂,…,l′_i,…,l′_N)，l′_i为归一化后的数据集L′中第i个时刻点的数据；

步骤2.2、将归一化后的数据集L′中的数据进行滚动排列，得到N₁×(d+1)维矩阵；维数d的取值为7，维数N₁取值为N₁＝N-7；

步骤2.3、将N₁×(d+1)维矩阵划分为训练集和测试集，训练集记为表示训练集中第j行输入的d维行向量，表示训练集中第j行的一维实际输出值；测试集表示测试集中第k行输入的d维行向量，表示测试集中第k行的一维实际输出值，并有：N^train+N^test＝N₁；

步骤3.构建支持向量分位数回归模型：

步骤3.1、将训练集第j行输入的d维行向量分别作为训练输入变量的第j个线性成分x_j和第j个非线性成分p_j，将训练集中第j行的一维实际输出值作为第j个训练实际输出值y_j，建立如式(1)所示的支持向量分位数回归模型：

式(1)中，T为转置；τ_r表示第r个分位点，且τ_r∈(0,1)，r＝1,2,…,N_τ；N_τ表示分位点的个数，由0.01至0.96共选取20个分位点，相邻分位点的间隔为0.05；表示第r个分位点τ_r下的参数向量，表示第r个分位点τ_r下的阈值；C为惩罚参数，为第r个分位点τ_r下的系数向量，表示非线性映射函数，表示检验函数；并有：

ρ_{τ_{r}} (u) = \{\begin{matrix} τ_{r} u, & u &GreaterEqual; 0 \\ (τ_{r} - 1) u, & u < 0 \end{matrix} - - - (2)

式(2)中，

式(3)中，ε,ε^*为最优Lagrange乘子向量，ε_j,为第j个最优Lagrange乘子；设计矩阵且j∈I；I为支持向量的下标集y＝{y_j|j∈I}，K为核矩阵，并有：选用径向基函数作为核矩阵的核函数，表达式为v∈I；σ²表示自由参数；

步骤4.通过遗传算法优化支持向量分位数回归模型中的惩罚参数C及自由参数σ²：

步骤4.1、初始化种群：

步骤4.2、运用训练集L_train训练支持向量分位数回归模型，得到训练后模型输出的上界和下界表示第j行的输出上界，表示第j行的输出下界，从而建立如式(4)所示的适应度函数：

\begin{matrix} \min & P I N A W + μ (P I C P) (β_{1} Σ_{j = 1}^{N_{L}} (y_{j}^{L} - y_{j}^{t r a i n}) β_{2} Σ_{j = 1}^{N_{U}} (y_{j}^{t r a i n} - y_{j}^{U})) \end{matrix} - - - (4)

式(4)中，N_L表示第j行的一维实际输出值小于第j行的输出下界的个数；N_U表示第j行的一维实际输出值大于第j行的输出上界的个数；β₁表示第j行的一维实际输出值小于第j行的输出下界的惩罚系数；β₂表示第j行的一维实际输出值大于第j行的输出上界的惩罚系数，β₁和β₂为较大的数，可取值为1000，2000；

PICP表示训练输出区间的覆盖概率，并有δ_j表示布尔值；若第j行的一维输出值则令δ_j＝1，否则，令δ_j＝0；

μ(·)表示置信度函数，当PICP＜v时，μ(PICP)＝1，否则μ(PICP)＝0，υ表示置信度，在具体计算中υ值为υ＝0.95；

PINAW表示训练输出区间平均带宽，并有R_C表示训练输出区间的上界最大值与下界最小值之间的差值；

步骤4.5、对下一代种群重复进行步骤4.3的操作，得到下一代的局部最优值，并与当前局部最优值进行比较，选取最优值来更新当前局部最优值；直至相邻两代的局部最优值之间的绝对误差在所规定的范围内，本文规定范围为(0,10^-5)；从而得到全局最优值s_best及其对应的惩罚参数C_best和自由参数

步骤4.6、将全局最优值s_best所对应的惩罚参数C_best和自由参数代入支持向量分位数回归模型，并将测试集中第k行输入的d维行向量作为测试输入变量的第k个线性成分x_k和第k个非线性成分p_k，从而利用式(5)得到测试集中第r个分位点τ_r下的第k行输出值

Q_{y_{k}} (τ_{r} | p_{k}, x_{k}) = b_{τ_{r}} + α_{τ_{r}}^{T} p_{k} + K_{k} (ϵ - ϵ^{*}) - - - (5)

式(5)中，K_k表示核矩阵K的第k个行向量；

步骤5.运用核密度估计对风电功率进行概率密度预测：

{\hat{f}}_{h} (z_{k, w}) = \frac{1}{N_{τ} h} Σ_{r = 1}^{N_{τ}} K_{1} (\frac{z_{k, w} - z_{k, r}}{h}) - - - (6)

\begin{matrix} \min & \frac{1}{N^{t e s t} h^{2} Σ_{λ = 1}^{N^{t e s t}} Σ_{k = 1}^{N^{t e s t}} \overset{&OverBar;}{K} (Z_{λ} - Z_{k})} - \frac{2}{N^{t e s t} (N^{t e s t} - 1)} Σ_{λ = 1}^{N^{t e s t}} Σ_{k = 1}^{N^{t e s t}} K_{1} (Z_{λ} - Z_{k}) - - - \end{matrix} (7)

步骤5.3、根据Epanechnikov核函数K₁(η)和最优窗宽h^*求取风电功率的概率密度预测结果。

为验证本发明的有效性，本实施例中选取加拿大2014年1月份的风电功率数据为数据集，对1月23日至1月29日共168个时刻点的风电功率进行预测，图3选取本发明风电功率预测方法的概率密度预测结果中的众数作为点预测结果，与实际值进行对比，并由上下分位点的预测值构成预测区间，得到较好的预测结果；本实例图4是本发明风电功率概率预测方法获得的最后8个时刻点的概率密度函数，风电功率的实际值全部落在概率密度曲线的中部。

实验证实了本发明不仅简化模型训练中的参数选择问题，有效减少复杂的模型计算；还能得到较精确的点预测结果和预测区间，和未来任意时刻点下完整的风电功率概率密度曲线等更多的信息，为风电并网提供了技术支持。

Claims

1.一种基于遗传算法与支持向量分位数回归的风电功率概率密度预测方法，其特征是按照以下步骤进行：

步骤1、采集风电功率的数据，并进行数据清洗：

步骤1.3、定义修正次数为a，并初始化a＝0；

步骤1.4、以所述完整的数据集作为第a次校验的数据集；

步骤2.样本归一化处理，并确定训练集和测试集：

步骤3.构建支持向量分位数回归模型：

ρ_{τ_{r}} (u) = \{\begin{matrix} τ_{r} u, & u &GreaterEqual; 0 \\ (τ_{r} - 1) u, & u < 0 \end{matrix} - - - (2)

式(2)中，

式(3)中，ε,ε^*为最优Lagrange乘子向量，为第j个最优Lagrange乘子；设计矩阵且j∈I；I为支持向量的下标集y＝{y_j|j∈I}，K为核矩阵，并有：v∈I；σ²表示自由参数；

步骤4.1、初始化种群：

\begin{matrix} \min & P I N A W + μ (P I C P) (β_{1} Σ_{j = 1}^{N_{L}} (y_{j}^{L} - y_{j}^{t r a i n}) + β_{2} Σ_{j = 1}^{N_{U}} (y_{j}^{t r a i n} - y_{j}^{U})) \end{matrix} - - - (4)

μ(·)表示置信度函数，当PICP＜υ时，μ(PICP)＝1，否则μ(PICP)＝0，υ表示置信度；

Q_{y_{k}} (τ_{r} | p_{k}, x_{k}) = b_{τ_{r}} + α_{τ_{r}}^{T} p_{k} + K_{k} (ϵ - ϵ^{*}) - - - (5)

式(5)中，K_k表示核矩阵K的第k个行向量；

步骤5.运用核密度估计对风电功率进行概率密度预测：

{\hat{f}}_{h} (z_{k, w}) = \frac{1}{N_{τ} h} Σ_{r = 1}^{N_{τ}} K_{1} (\frac{z_{k, w} - z_{k, r}}{h}) - - - (6)

\min \frac{1}{N^{t e s t} h^{2} Σ_{λ = 1}^{N^{t e s t}} Σ_{k = 1}^{N^{t e s t}} \overset{&OverBar;}{K} (Z_{λ} - Z_{k})} - \frac{2}{N^{t e s t} (N^{t e s t} - 1)} Σ_{λ = 1}^{N^{t e s t}} Σ_{k = 1}^{N^{t e s t}} K_{1} (Z_{λ} - Z_{k}) - - - (7)

式(7)中，表示Epanechnikov核函数的卷积，并有：其中，ζ＝Z_λ-Z_k；