CN112465251A

CN112465251A - 一种基于最简门控神经网络的短期光伏出力概率预测方法

Info

Publication number: CN112465251A
Application number: CN202011424093.2A
Authority: CN
Inventors: 刘蓉晖; 孙改平; 林顺富; 米阳; 韦江川; 马天天; 赵增凯; 陈腾; 王乐凯; 杨涛; 张飞翔
Original assignee: Shanghai Electric Power University
Current assignee: Shanghai University of Electric Power; Shanghai Electric Power University; University of Shanghai for Science and Technology
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-09

Abstract

本发明涉及一种基于最简门控神经网络的短期光伏出力概率预测方法，包括以下步骤：1)将含有多个待选天气变量的原始数据进行归一化处理，并采用最大信息系数MIC对原始数据的维数进行约减；2)将约减后的特征数据集分为训练数据集和测试数据集，并采用K‑means算法将训练数据集和测试数据集分别分为晴天、多云、阴天和雨天四个天气类型数据；3)构建神经网络分位数回归模型并采用训练数据集进行训练；4)采用训练好的神经网络分位数回归模型进行预测得到各条件下的分位数，并通过核密度估计得到近似完整的概率密度函数。与现有技术相比，本发明具有提高预测可靠性和精度、预测区间更窄且覆盖率更高、简单快速等优点。

Description

一种基于最简门控神经网络的短期光伏出力概率预测方法

技术领域

本发明涉及光伏发电大数据处理领域，尤其是涉及一种基于最大信息系数特征选择和最简门控神经网络的短期光伏出力概率预测方法。

背景技术

随着人们对日益加剧的能源短缺与环境问题的重视，光伏发电作为太阳能的一种最有潜力的利用技术得到了快速发展，然而复杂多变的天气状态、云层移动、环境温度等因素使得光伏发电具有随机性、间歇性与波动性特点，随着光伏发电在电力系统中的装机容量比重的不断增加，给传统电网的安全稳定运行带来了挑战，可靠与有效地预测光伏发电输出功率对优化电网配置、降低电网运行成本与确保电网安全稳定运行有十分重要的意义，光伏功率预测的准确性对电网调度运行影响很大。

基于物理模型的光伏出力预测方法存在准确性低、通用性差、参数选取复杂等缺点，近年来基于机器学习的数据驱动方法成为了研究热点，此类方法相比物理模型，有较好的通用性与移植能力，同时也有良好的非线性逼近能力，在现有的基于数据驱动的预测模型中，依据预测结果的类型，光伏出力预测可以分为确定性预测与概率预测，确定性预测方法以确定的功率值为预测结果，包括时间序列回归、相似日聚类、深度神经网络等多种方法，确定性预测能够支持调度系统进行长时间尺度优化，但无法给出预测结果的概率与波动区间，在复杂天气条件下，光伏出力短时波动较大，确定性预测方法的预测精度将显著降低，这将影响电网的安全稳定运行。

概率预测方法以光伏设备在预测时刻的出力概率分布为输出，即给出预测时刻光伏设备所有可能的出力值其概率，从而对预测点的不确定性进行描述，调度系统可利用预测的区间大小评估光伏出力的波动情况，从而考虑极端状况下的调度策略，提高电网的安全性，而目前的概率预测方法的研究处于起步阶段，一般采用数据驱动的方法构建预测模型，传统的概率预测方法通常预先假设预测目标服从确定的分布函数，如正态分布、Beta分布或Weibull分布等，从历史数据中学习分布函数的参数，从而得到预测点光伏。

由于近年来深度学习的快速发展，许多传统机器学习方法的性能不如深度学习方法。在深度学习方法中，递归神经网络(RNN)适合于解决诸如时间序列的序列问题，因为其网络结构考虑了定时信息。然而，当序列长度过长时，RNN会面临长期的依赖性问题，长短期记忆网络(LSTM)被提出来解决这个问题，与RNN相比，LSTM模型所具有的长短期记忆能力帮助其在时间序列预测领域获得了预测精度的显著提高，但是，LSTM模型中存在大量需要优化的权重和偏移参数，在大数据集下可能优化缓慢，特别是当需要捕获的依赖关系跨度较大，即输入时间序列长度较长时，LSTM很难成功收敛。此外，LSTM还面临着可能的“过拟合”问题，即在训练时，网络因过分强调训练集的预测精度导致其泛化能力较弱，在实际预测中反而预测精度降低。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于最简门控神经网络的短期光伏出力概率预测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于最简门控神经网络的短期光伏出力概率预测方法，包括以下步骤：

1)将含有多个待选天气变量的原始数据进行归一化处理，并采用最大信息系数MIC对原始数据的维数进行约减；

2)将约减后的特征数据集分为训练数据集和测试数据集，并采用K-means算法将训练数据集和测试数据集分别分为晴天、多云、阴天和雨天四个天气类型数据；

3)构建神经网络分位数回归模型并采用训练数据集进行训练；

4)采用训练好的神经网络分位数回归模型进行预测得到各条件下的分位数，并通过核密度估计得到近似完整的概率密度函数。

所述的步骤1)中，待选天气变量共有11个，具体为降水量、最低气温、最高气压、蒸发量、最高气温、日照时数、风速、能见度、云量、平均水汽压和温度。

所述的步骤3)中，神经网络分位数回归模型以能见度、云量、降水量、大型蒸发量、风速以及前一时刻的光伏出力数据作为输入，以待预测时刻的光伏出力作为输出。

所述的步骤3)中，神经网络分位数回归模型为分位数回归最简门控记忆网络，其具体为由分位数回归结合最简门控记忆网络得到的混合模型。

所述的最简门控记忆网络由在LSTM循环神经网络基础上对内部门控结构进行改进得到，具体为：

将输入门和遗忘门进行耦合，消除输出门和偏压，保留两个激活函数sigmoid和tanh。

所述的步骤4)中，获取各条件下的分位数具体包括以下步骤：

41)计算遗忘门f_t(τ)和耦合输入门i_t(τ)，则有：

f_t(τ)＝σ(net(τ))＝σ(w_h(τ)·h_t-1(τ)+w_x(τ)·x_t)

i_t(τ)＝1-f_t(τ)

其中，net(·)为中间变量，σ(·)为sigmoid激活函数，w_h(·)为权重矩阵，h_t-1(·)为t-1时刻的隐藏门输出，w_x(·)为权重矩阵，x_t为输入数据，τ为分位数；

42)计算当前信息状态a_t(τ)，则有：

a_t(τ)＝tanh(net(τ))＝tanh(w_h(τ)·h_t-1(τ)+w_x(τ)·x_t)

其中，tanh(·)为tanh激活函数；

43)计算隐藏门的输出h_t(τ)，则有：

h_t(τ)＝f_t(τ)*h_t-1(τ)+i_t(τ)*a_t(τ)；

44)计算预测值y_t的第τ条件分位数

则有：

其中，Ω(τ)为所有权重矩阵，QRMGM表示分位数回归最简门控记忆网络。

所述的步骤4)中，进行核密度估计得到近似完整的概率密度函数具体为：

对于每一个τ构成一组样本

计算样本z_t的核密度估计

则有：

其中，B>0为带宽，N为样本总数，k(·)为非负核函数，z_t,i为样本z_t中第i个样本，x为对应的输入数据。

所述的非负核函数k(·)为Epanechnikov核函数。

所述的带宽B通过交叉验证网格搜索确定。

所述的分位数τ从0到1均匀分布。

与现有技术相比，本发明具有以下优点：

本发明提出的一种基于最大信息系数特征选择和最简门控神经网络的短期光伏出力概率预测方法，充分考虑气象参数与光伏出力值各个分位数之间的耦合关系，提高了预测的可靠性，采用最大信息系数对气象因素进行筛选，降低了模型的输入维数，同时提高了预测的精度，并且得到的预测区间更窄且覆盖率更高，具有较高的实用性，与其他方法相比，避免了传统区间预测计算量大、过程繁琐和可靠性差的限制，通过光伏电站的实例仿真结果分析表明本发明能简单、快速的构建高质量区间预测，为光伏出力预测提供一种新的预测方法。

附图说明

图1为分位数回归最简门控记忆网络的结构示意图。

图2基于改进LSTM神经网络的光伏出力概率预测流程图。

图3为概率预测分布图，其中，图(3a)为晴天光伏出力的概率分布，图(3b)为多云光伏出力的概率分布，图(3c)为阴天光伏出力的概率分布，图(3d)为雨天光伏出力的概率分布。

图4为PIT值分布，其中，图(4a)为晴天PIT值分布，图(4b)为多云PIT值分布，图(4c)为阴天PIT值分布，图(4d)为雨天PIT值分布。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

本发明提出了一种基于最大信息系数(MIC)相关性分析和改进LSTM神经网络光伏出力概率预测方法，并且给出了结合分位数回归和任意点预测方法的混合框架，既能预测光伏出力，又能量化预测的不确定性，为了在模型中加入时间信息，进一步提高预测精度，提出了分位数回归和改进的LSTM相结合的混合模型用于分布式光伏超短期概率预测方法：选择合适的输入特征后，考虑到输入特征中的天气特征维度高且与输出的相关性较弱，采用MIC进行光伏出力影响序列的相关性分析，筛选出与光伏出力相关性最高的输入特征，在提高数据密度的同时保留数据的非线性信息，提高模型对输入数据的信息提取能力，并按天气类型进行聚类建模，其次，对LSTM进行改进，在传统LSTM单元内部结构上耦合输入门和遗忘门两个门控单元，通过简化LSTM的结构，从而减少权值变量，在减少其训练时间的同时不显著降低预报精度；最后，以实际的分布式光伏设备及气象站的数据训练模型，得出预测结果的区间，对改进LSTM网络的预测能力进行验证。

1、预测模型输入变量选取

在进行光伏发电预测时，首先需要确定的就是模型输入变量的个数和种类，输入变量不同，所得的预测结果会有很大的差异。预测时输入变量选择很大程度上受限于光伏电站历史数据，历史数据记录的变量种类较少就会造成即使模型精度很高，得到预测结果也很难满足精度要求。另外当历史数据的信息较为丰富时，将变量全部作为输入变量会出现维数灾难，使得原来在低维空间效果很好的预测方法效果明显下降。另一方面过多的变量也会造成数据冗余或变量之间关联性太强，进而使预测模型过拟合、泛化误差增大的现象。

1.1光伏发电功率影响因素

光伏发电功率和很多气象因素有关，并网光伏系统输出功率p的工程模型为：

p＝ηSI[1-0.005(t₀+25)] (1)

式中：η为光伏组件的光电转换效率；S为光伏组件的面积；I为太阳辐照强度；t₀为光伏组件的工作温度。

假设短期功率预测中光伏阵列面积S和转换效率η不变。由式(1)可看出，当S和η确定时，太阳辐照度和温度直接影响功率的数值。对于不同季节下的不同天气类型，当日的太阳辐照度也有差异，光伏发电功率曲线差别较大。

光伏发电量主要由太阳辐射值和温度决定。到达地面的太阳辐射受到众多因子(如天文因子、地理因子以及云层、水汽、气溶胶等气象环境因子)的影响，比如云的反射和散射，气溶胶颗粒的吸收、反射和散射等。其中对于某一特定区域而言，气象环境因子存在较大的不确定性。

1.2太阳辐射影响因子分析

云量是决定到达地面太阳辐射多少的重要因素之一，对总辐射的影响具有双重性，它一方面直接反射太阳的短波辐射，导致直接辐射减小，另一方面使散射辐射增大，但由于直接辐射减小的幅度往往大于散射辐射增加的幅度，故云量的增加(或减少)会使得总辐射减少(或增加)。

在各个季节中云量和太阳辐照度大体上呈负相关，即云量的增加(或减少)会使得总辐射减少(或增加)。

云量是影响总辐射的重要因子，但某些时刻云量的增加(或减少)却并不使得总辐射减少(或增加)，说明控制该区总辐射变化的因子不只有云量，而是还有其他气象因子，目前对国内一些地区太阳辐射变化原因的分析也得到了类似的结论，例如长江三角洲、鄂尔多斯、海河流域等地区。

近几十年来，随着城市化建设步伐的加快，城市化对地面太阳辐射的影响日益凸显。城市特殊的下垫面条件、边界层结构和比较集中的污染源使得城市上空大气污染物浓度较高，大气透明度降低，对城市地面太阳辐射产生了重要影响。能见度反映了近地表大气的透明程度，其大小主要取决于大气气溶胶(包括空气中的水汽凝结物和固态悬浮物)浓度。气溶胶也能吸收、散射和反射太阳辐射，能够显著削弱太阳辐射强度，故能见度也是决定地面太阳辐射的一个重要因子。

在各个季节中能见度和太阳辐照度大体上呈正相关，即云量的增加(或减少)会使得总辐射增加(或减少)。

能见度既受大气气溶胶浓度变化的影响，也受气象条件的制约。前者直接决定了大气中的固态和液态颗粒物对太阳辐射削弱程度，后者则是对气溶胶的形成、分布、维持与变化作用具有显著影响。这解释了某些时刻能见度和太阳辐照度由于其他气象条件的制约并不呈正相关关系。

1.3最大信息系数MIC

Reshef于2011年首次在Science上提出了基于互信息理论的最大信息系数，可有效监测两变量之间是否存在线性函数或其他任何非常量函数关系，MIC具有稳健性，不受到异常值的影响，是较好的衡量变量间相关性的指标。光伏相关影响序列与预测光伏序列间的MIC值越大，则可认为该相关影响序列对预测光伏序列的概率分布“贡献度”越大，越适合作为输入序列输入网络进行光伏预测。

该方法通过衡量目标序列间的信息相似度，确定两目标序列的关联关系。最大信息系数表达式为：

式中：y₁与y₂分别服从Y₁和Y₂分布；I[Y₁,Y₂]称为分布的互信息，其表达式为：

由蒙特卡洛采样定理可得：

I[Y₁,Y₂]≈I[y₁,y₂] (4)

1.4数据预处理

由于各气象要素、功率等数据具有不同的量纲和单位，需将数据进行归一化处理。对最小相对湿度，最低气温，最高气压，降水量，风速，蒸发量，平均水汽压，温度，日照时数，能见度，云量，最高气温的归一化采用最大最小归一化法：

式中，X为原始值；X_min为该特征最小值；X_max为该特征最小值。

1.5基于最大信息系数MIC的输入选择

分析发现，影响太阳辐照度的因子不只云量和能见度，还需考虑其他气象因素和天气类型的影响。

本发明采用MIC对各气象因素与光伏出力值的“贡献度”进行研究，同时可以有效地解决自变量对因变量存在间接影响的问题，筛选出主要变量作为模型的输入。

本发明以中国某地区相关气象数据作为样本，未进行约减时输入变量为11个，依次为降水量，最低气温，最高气压，蒸发量，最高气温，日照时数，风速，能见度，云量，平均水汽压，温度。通过MIC对气象因素进行筛选。

MIC理论中，“贡献度”大小决定着影响程度。从中选取“贡献度”超过0.2的变量作为预测模型的输入，即能见度，云量，降水量，大型蒸发量，风速。经过MIC分析处理后，每个样本仅包括上述输入数据。而光伏出力历史数据具有较强时序性，所以前一时刻的光伏出力也会包括。

2、基于改进LSTM神经网络的最简门控记忆网络

2.1传统LSTM循环神经网络

循环神经网络(RNN)是一种专门用于处理序列数据的神经网络。与传统的全连接前馈卷积网络不同，它支持在几个时间步内共享网络的权重和偏移参数以及这些参数的更新规则，这使得RNN当前时间步的网络状态是前一时间步网络状态的函数，确定了RNN前后时间步间的关联性。因此，RNN的当前状态实际是整个过去序列的信息的一个记录。一般来说，这个记录是有损的，随着时间步的增加，越久远的输入信息越有可能被遗忘。RNN能处理一些序列问题，但其存在严重的长期依赖问题，经过多阶段传播后的梯度倾向于消失或爆炸，在许多情况下难以优化。针对这一问题，Hochreiter和Schmidhuber将门控机构加入RNN中，形成了一种新的长短期记忆网络(LSTM)架构，这种架构有效控制了梯度长时间持续流动的路径，缓解了长期依赖问题，在大多数序列处理问题上表现不俗。

根据传统LSTM模块内部结构，其详细计算规则如下：

f_l＝σ(W_fx_l+U_fh_l-1+b_f) (6)

i_l＝σ(W_ix_l+U_ih_l-1+b_i) (7)

o_l＝σ(W_ox_l+U_oh_l-1+b_o) (10)

设输入序列有k个时间步，按输入时间先后为(x₁,x₂,...x_k)，首先取第t时间步进行分析，x_l为当前输入网络的输入向量，h_l为当前的隐藏层向量，其中包含所有LSTM细胞的输出，c_l为当前的细胞状态向量，其中包含所有LSTM细胞的状态，带有下标的W、U、b分别是对应的各门或神经层的循环权重、输入权重和偏置。在LSTM模块内的门控机制由遗忘门、输入门和输出门组成，各门的激活函数均为Sigmoid函数，当x_l输入网络后，会与上一时间步的隐藏层向量h_l-1同时被一个tanh神经层与三个门处理，其中，tanh层会创建新的候选状态向量

遗忘门f_l决定要从上一时间步的细胞状态c_l-1中丢弃与保留什么信息，输入门i_l决定如何更新候选状态向量

细胞状态更新后，输出门o_l决定如何将新的状态向量c_l过滤为输出信息h_l。

不同时间步间的LSTM处理过程具体为：当前时间步的c_l与h_l经过LSTM的门控机构计算后被保留下来，用于下一时间步的计算，当完成最后一步的计算后，隐藏层向量h_k将作为输出与本组序列对应的预测值(标签值)进行比较，得出损失函数的值，并依据梯度下降算法对权重和偏置参数进行优化。通过门控机构和完善的参数更新规则，LSTM实现了对输入信息流的选择和筛选，提高了循环神经网络对长序列的处理能力。

2.2最简门控记忆网络

近年来，学者们提出了LSTM神经网络的几种变体，被应用在各种机器学习问题中，对已有的LSTM变体进行了大规模分析，证明三个门与输出激活神经层是LSTM中最关键的组成成分，修改了门控结构的LSTM变体在分类问题上表现出了明显的改善。因此，本发明的思想是在上述文献的基础上，在不降低预测精度的情况下，设计一个最简门控LSTM神经网络(MGM-LSTM)进行光伏预测，它的结构尽可能简单，权值变量尽可能少。这种新型LSTM变体改进了传统LSTM内部门控机构，将输入门和遗忘门进行耦合，输出门和偏压被消除，两个激活函数sigmoid和tanh被保留，这意味着它的预测精度不会因此减少。

3、基于MGM-LSTM神经网络分位数回归理论的概率分布估计方法

3.1分位数回归理论

回归分析研究自变量X＝[x₁,x₂...x_n],X_t＝[1,x_t1,x_t2,...x_tm]与因变量Y＝[y₁,y₂...y_n]的条件期望之间的关系。分位数回归(QR)研究自变量和因变量的条件分位数之间的关系[16],传统的回归分析只能得到因变量的中心趋势，而QR可以进一步推断因变量的条件概率分布。线性QR模型如下：

其中Q_yt(τ|x_t)是因变量y_t的第τ条件分位数，并且τ∈(0，1)。回归系数β(τ)＝[β₀(τ)，β₁(τ)，...，β_m(τ)]。β(t)的估计值

可以通过最小化损失函数L得到：

其中

是不对称函数，其公式如下：

之后，y_t的第τ条件分位数可以通过线性QR模型来估计，如下：

3.2混合模型框架

通过QR的引入，结合QR和其他点预测模型的混合模型框架可以总结如下：

(1)假设

是任意点预测模型，其中，x_t是模型输入，Ω为模型参数，

是y_t的预测值。

(2)那么结合QR和这个点预测模型的混合模型就是

Ω(t)的估计量

是通过最小化损失函数

得到的，有时，为了避免过拟合，可以在损失函数中加入L1正则化、L2正则化[17]或L1和L2的联合正则化。

(3)最后，用混合模型

估计出y_t的τ条件分位数，不同混合模型的区别在于f(x_t,Ω(τ))的计算。

3.3分位数回归最简门控记忆网络

最简门控记忆网络(MGM)的提出是为了在不显著降低预测精度的情况下简化LSTM结构和减少训练时间。此外，如图1所示，提出了结合分位数回归和最小门控记忆网络的混合模型来量化预测不确定性，该模型被称为QRMGM。

图中，X_t：输入，net_t：中间变量，f_t：遗忘门，a_t：信息状态，h_t：隐藏门输出，y_t：输出，tanh，σ：激活函数，+，*：矩阵元素间的矩阵加法和乘法。

QRMGM使用混合框架模型，其核心在于

其计算步骤如下：

1)计算遗忘门f_t(τ)和耦合输入门i_t(τ)：

f_t(τ)＝σ(net(τ))＝σ(w_h(τ)·h_t-1(τ)+w_x(τ)·x_t)

i_t(τ)＝1-f_t(τ) (16)

2)计算当前信息状态a_t(τ)：

a_t(τ)＝tanh(net(τ))＝tanh(w_h(τ)·h_t-1(τ)+w_x(τ)·x_t) (17)

3)计算隐藏层的输出h_t(τ)：

h_t(τ)＝f_t(τ)*h_t-1(τ)+i_t(τ)*a_t(τ) (18)

4)计算

假设特征输入和隐藏层节点数分别为m和d，那么权重矩阵w_h(τ),w_x(τ)和w_y(τ)的形状分别为[d×d],[d×m]和[1×d]，

代表所有权重矩阵，net_t(τ)代表中间变量。符号·表示矩阵乘法，符号*表示矩阵元素之间的乘法。σ(·)，tanh(·)是sigmoid和tanh的激活函数。

根据LSTM和GRU的网络结构，LSTM有像[w_h(τ),w_x(τ)]一样的四组权重矩阵，GPU在隐藏层中有三组权重矩阵。而MGM在隐藏层只有一组权重矩阵，这说明MGM是门控结构记忆网络最简单的形式

3.4核密度估计

结合QR的混合模型只能得到预测的条件分位数，而不能直接得到概率密度函数。预测的概率密度函数是通过核密度估计(KDE)[22]获得的，因为它是一种经典的非参数估计方法，所以不需要先验假设。有N个分位数τ从0到1均匀分布，即τ＝[τ₁，τ₂，...τ_N]。对于每一个τ，

由QRMGM获得。这些条件分位数构成一组样本：

其概率密度函数通过核密度估计获得。样本z_t的核密度估计由下式定义：

其中B>0是带宽，N是样本总数，k(·)是非负核函数，核函数选择Epanechnikov核函数，其公式如(21)。Epanechnikov核函数具有钟形的形态，但相比于目前采用的高斯核函数可以大大减少计算量，提高算法的运算速度。

带宽是核密度估计最重要的参数之一，太宽的带宽导致估计器的偏差，而太窄的带宽导致估计器的噪声。交叉验证网格搜索用于选择合适的带宽。

4、基于改进LSTM神经网络的光伏出力概率预测流程

如图2所示，基于改进LSTM神经网络的光伏出力概率预测流程具体包括以下步骤：

1)将原始数据进行归一化处理，并采用MIC将样本输入数据的维数进行约减；

2)根据约减后的数据，利用K-means算法将训练数据集和测试数据集分别分为晴天、多云，阴天，雨天；

3)采用神经网络分位数回归模型，以约减后的气象参数和前一时刻光伏出力作为输入，对应出力值为输出对预测模型进行训练；

4)对待预测时刻光伏出力值进行预测，得出分位数，通过核密度估计来近似完整的概率密度函数，以95％置信区间作为预测区间，预测的间隔为六分钟。

5、概率预测模型预测效果的评价指标

对评估指标进行说明，包括区间预测指标、概率预测指标和可靠性指标，

5.1区间预测的评价指标

为了评价区间预测的适用性，本发明采用覆盖概率(CP)和平均宽度百分比(MWP)来评价区间预测的适用性。CP_α定义为在α的置信水平下观测值落在预测区间内的概率。用MWP_α测量预测区间宽度。如果区间足够宽，很容易满足CPα＝100％。这种区间过于保守，不能提供关于预测不确定性的有效信息。理想的预测区间应具有较高的CPα和较低的MWP_α，因此，将区间预测的综合测度定义为MC_α。该值越小，预测区间越合适。

5.2概率预测的评价尺度

为了评价概率预测的综合性能，本发明采用了连续排序概率评分法(CRPS)。CRPS越小，概率预测的综合性能越好。

5.3可靠性评价指标

可靠性是指预测和观察的统计一致性。概率积分变换(PIT)值可用于指示预测分布是否过高或过低、过宽或过窄。如果值服从0和1之间的均匀分布，则概率预测是可靠的。根据累计分布函数和观测值计算。

6、实例结果分析

本发明以中国某地区光伏电站数据进行验证，数据包括光伏电站出力值和相对应时刻的气象参数。以8点到17点数据作为基础数据，并分四类天气类型进行建模。根据前文分析，选取能见度，云量，降水量，大型蒸发量，风速，前一时刻的光伏出力，作为神经网络输入变量，所有数据已做归一化出力。输出变量为光伏的预测出力。其中百分之九十数据集作为训练集,其余作为验证集。每隔6分钟输出预测值。为充分说明所提出预测模型的有效性，在结果分析部分从区间预测适用性、概率预测综合性能、预测可靠性验证了该方法的性能。并且和LSTM，GPU,RNN进行对比。

6.1模型有效性验证

首先通过k-means算法将光伏出力数据划分为晴天、多云、阴天和雨天四大类，在每一个天气类型中用MGM分别建立光伏出力概率预测模型，从而得到光伏出力的概率分布，如图3所示。

图中阴影部分为取95％置信区间得到的预测区间,其中预测区间的宽度越大，说明预测结果的可靠性越低。从图中可以看出，大部分观测点落在预测区间内，区间宽度较窄，这说明QRMGM的预测区间非常适合。在晴天并且实际光伏出力变化规律的情况下，所提出的方法预测结果精度较高，并且预测区间相对窄。在阴雨天气且实际出力值变化较为规律的情况下预测结果也可以保证较高的精度，但预测区间的宽度要大于晴天。在阴雨天并且实际光伏出力值变化相对剧烈的情况，本发明所提出的方法同样可以保证大部分观测点落在预测区间内，但预测区间宽度明显大于晴天状况。相对于晴天和雨天的

预测结果，多云天气的预测结果误差偏大，一是因为训练样本中多云天气的样本数少；二是因为多云天气的云层厚薄和位置变化难以预测，因此使预测结果受到影响。阴天的样本数少，而且天气情况复杂，可能是雨前或雨后的阴天，也可能是全天的阴天，云层的厚薄等因素都会对预测结果产生影响，所以在有些时段的误差较大。

6.2结果评价

1)预测区间及概率预测结果评价

区间预测结果评价是为了验证区间的覆盖概率和平均宽度，从而判断区间是否合适。概率预测结果评价是为了验证概率预测的综合性能。为了充分验证性能，将MGM和LSTM,GPU,RNN进行对比分析。为了比较的公平性，将其他方法中相同的参数设置为相同的。所有模型参数都设置为一些常用值。

四种方法的各项评价指标如表1所示。

表1：不同方法的评价指标对比

由表1可分析出以下结论：

1.MGM的CP值在四种天气类型下都为0.97，说明数据集的覆盖率接近97％，预测的结果是合理的，且在四种方法中CP值也较高。

2.MGM的MWP值适中，晴天到阴雨天MWP值变化幅度比LSTM小，说明区间宽度变化不大，预测更为稳定。

2.MGM的MC值在四种天气类型下均较低，表明它的预测区间覆盖了尽可能多的观测点且宽度尽可能小，预测区间合适。

3.MGM的CPRS值与其他神经网络相比最小，说明是最佳的概率预测评价模型。

综上所述，QRMGM得到的预测区间是最合适的，说明本发明提出的方法能够更稳健地对光伏出力进行概率性预测。

2)可靠性评价

通过计算观测点的PIT值并分析这些PIT值是否服从均匀分布，验证了QRMGM的可靠性。用QQ图直观分析是否均匀分布。图4绘制了两个天气类型的PIT均匀概率图。两个数据集的PIT值沿对角线均匀分布，其范围均匀覆盖[0,1]。所有坑点均位于Kolmogorov 5％显著性带，这表明预测的概率密度不会过高或过低，也不会过宽或过窄。因此，QRMGM方法得到的预测结果是可靠和令人信服的。

3)显示概率密度曲线

由QRMGM在四种天气类型中以等间距采样的概率密度曲线得到，概率密度曲线的形状非常饱满，没有出现过高或过低、过宽或过窄的情况，说明概率密度曲线是合适的。观测值几乎位于曲线的中心。结果表明，这些时段的预测精度很高。

本发明提出了一种改进LSTM的光伏出力概率分布估计方法。此方法充分考虑气象参数与光伏出力值各个分位数之间的耦合关系，提高了预测的可靠性。采用最大信息系数对气象因素进行筛选，降低了模型的输入维数，同时提高了预测的精度，并且得到的预测区间更窄且覆盖率更高，具有较高的实用性。与其他方法相比避免了传统区间预测计算量大、过程繁琐和可靠性差的限制。通过光伏电站的实例仿真结果分析表明本发明所提的超短期光伏出力预测模型能简单、快速的构建高质量区间预测，为光伏出力预测提供一种新的预测方法。