CN116451035A

CN116451035A - 一种提高分布式光伏预测精度的数据特征工程处理方法

Info

Publication number: CN116451035A
Application number: CN202310450686.3A
Authority: CN
Inventors: 陈凡; 丁津津; 李智; 罗超; 张倩; 樊磊; 伍骏杰; 刘依帆
Original assignee: Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd; Anhui University
Current assignee: Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd; Anhui University
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-07-18

Abstract

本发明涉及一种提高分布式光伏预测精度的数据特征工程处理方法，包括：基于iForest算法进行初始数据识别；超分辨率重构‑双通道卷积神经网络进行数据重构，得到重构数据；通过皮尔逊相关系数将得到的重构数据进行相关性的分析；通过相关性的分析和格兰杰因果检验GCT找到最优时间偏移量输入进物理模型，将风速和风向进行变换和气象数据的归一化输入数据驱动模型进行处理。本发明中的物理模型的数据处理，专门用于处理场数据的时空相关性，最后引入特征生成技术来实现数据驱动模型的数据特征提取最大化；对缺失数据进行了识别差补，弥补了分布式光伏电站的数据缺失问题，因为该神经网络的双通道处理，差补的缺失数据与原有的相关性较高。

Description

一种提高分布式光伏预测精度的数据特征工程处理方法

技术领域

本发明涉及电力系统预测技术领域，尤其是一种提高分布式光伏预测精度的数据特征工程处理方法。

背景技术

在碳排放和化石燃料枯竭的压力下，太阳能光伏发电是近年来增长最快的能源形式。根据国际能源署(International Energy Agency，IEA)的数据，全球光伏市场在2021年达到了至少942GW的规模。这种指数增长的很大一部分是由于小规模、分布式系统在住宅和商业建筑的屋顶上出现。分布式光伏容量预计将在2024年达到530GW。光伏发电的不确定性对电网稳定性、可靠性和调度产生负面影响。准确、高效的光伏功率短期预测在提高电网稳定性、经济调度和确保电力质量方面发挥着至关重要的作用。

目前，短期光伏预测方法可以分为两个主要类别：物理模型方法和数据驱动方法，其中，物理模型方法包括使用分析方程来描述光伏系统内部能量转换机制的“白盒子”方法，数据驱动方法采用统计和机器学习算法。目前大多数研究都使用了数据驱动方法。

随着光伏发电量的巨大增长，短期预测方法在电力系统的可靠和经济运行中发挥着重要作用。对于分布式光伏系统，由于其分布位置的多样性、气象信息的多样性和数据采集设备的限制，预测方法面临更大的挑战，如图1所示。与大规模且地理位置集中的光伏电站不同，分布式光伏发电装置地理位置分散，此外，分布式光伏发电装置通信和监测设备经常部分缺失，导致一些功率和气象数据的丢失。因此，相对于光伏电站，实现分布式光伏短期预测的高精度更为复杂。无论是物理模型还是数据驱动的模型的精确预测对数据的需求以及特征都相对较高的，但是新型的光伏系统的数据缺失严重，分布也相对分散，所以上述的预测工具用于分布式光伏的预测的准确性以及泛化能力明显不足，急需研发一种提高分布式光伏预测精度的数据特征工程处理方法。

发明内容

为解决分布式光伏数据缺失和分布分散的缺陷，本发明的目的在于提供一种提高分布式光伏短期预测的泛化能力和精度的提高分布式光伏预测精度的数据特征工程处理方法。

为实现上述目的，本发明采用了以下技术方案：一种提高分布式光伏预测精度的数据特征工程处理方法，该方法包括下列顺序的步骤：

(1)基于iForest算法进行初始数据识别：分布式光伏站的得到的数据存在着异常和缺失的情况，通过iForest算法对初始的数据进行异常值的清洗；

(2)超分辨率重构-双通道卷积神经网络进行数据重构：清洗后的数据存在的还存在着缺失，通过超分辨率重构-双通道卷积神经网络将缺失的数据进行插补，得到重构数据；

(3)进行相关性分析：通过皮尔逊相关系数将得到的重构数据进行相关性的分析；

(4)进行物理模型与数据驱动模型的数据处理：通过相关性的分析和格兰杰因果检验GCT找到最优时间偏移量输入进物理模型，将风速和风向进行变换和气象数据的归一化输入数据驱动模型进行处理。

所述步骤(1)具体是指：所述iForest算法包括两个阶段：第一个阶段是构建由树组成的孤立森林，第二个阶段是判断异常程度；

所述异常程度判断具体是指：

在获得t个iTree之后，进行iForest的构建，在每棵树中，搜索x即样本集中的样本点，通过公式(1)计算出异常指数，来判断异常程度：

式中，S(x)是检测到的样本的异常指数，取值在0到1之间，E(h(x))是需要在iTree上测量x的平均路径长度，c(v)是由训练数据x中v个点组成的二叉树的平均搜索路径长度：

式中，h(x)＝ln(x)+ξ，ξ是欧拉常数；

根据公式(1)，得出以下结论：

1)S(x)＝1，表示所有样本都异常；

2)S(x)＝0，表示所有样本中没有异常点；

3)S(x)在(0,1)之间，表示所有样本中没有明显的异常点。

所述步骤(2)具体是指：超分辨率是一个欠定函数，将存在缺陷的缺失数据x映射到估计的完整数据y，表示为f_θ:x→y，超分辨率映射f_θ由卷积神经网络实现，该网络将缺陷的数据即短向量作为输入特征，长度为d_f，并输出长度为d_c，d_f<d_c的估计完整数据即长向量，由三个部分组成：特征提取部分、信息补充部分和重建部分；

给定具有p个实例和d_f个特征的输入特征提取部分从X中提取特征，每个实例的特征由m个特征向量表示，每个向量长度为d_f，这些特征/>包含输入X的抽象特征信息；

之后，信息补充部分包含一个全局残差连接和n个局部残差块，将缺失信息补充到特征向量中，在每个局部残差块中，卷积层在输入和输出特征空间之间执行非线性映射；

最后，重建部分将每个实例的特征向量集成为α个子向量，每个子向量长度为d_f，这些子向量被重新排列为估计的完整数据/>子向量使用卷积操作并行生成，超分辨率重构-双通道卷积神经网络的输出由原始数据重建来估计出完整数据。

所述步骤(3)具体是指：通过皮尔逊相关系数PCC，分析气象数据中主要气象因素与光伏输出之间的相关性：

其中，r_XY和cov(X,Y)分别表示时间序列变量的PCC值和协方差，σ_X和σ_Y表示变量X,Y的标准差，E(·)表示变量的数学期望，PCC的绝对值越大，表明变量之间的相关性越强。

在步骤(4)中，所述物理模型的数据处理是指：使用物理分布式光伏预测子模型进行分布式光伏功率估计和预测起点，包括估计或预测所考虑区域内所有分布式光伏发电系统的发电量，基于格兰杰因果检验GCT和皮尔逊相关系数PCC插值，将最优时间偏移方法引入到物理分布式光伏预测子模型中，选择最优时间偏移物理子模型；

引入格兰杰因果检验GCT测试时间序列变量之间的因果关系，若统计模型中的滞后变量X能够解释变量Y，则认为X是Y的格兰杰因素，时间偏移的方向和值由格兰杰因果检验GCT确定：

其中，α_i、β_i是无限制回归模型的系数，ε_i是单变量白噪声，s是最高滞后项，Y_t表示当前样本，Y_t-i表示之前的样本，非因果性的零假设对应于H₀：β_j＝0,j＝1,…,s，通过比较估计精度，确定变量Y和变量X之间的格兰杰因果关系；对于每个分布式光伏发电系统，使用阿卡伊克准则确定滞后最高滞后项s的最佳值；

根据格兰杰因果检验GCT，随机选择总辐射数据：首先，使用三次样条插值方法对具有15分钟时间间隔的总辐射数据进行加密，以生成具有5分钟时间间隔的密集数据；通过左右移动密集的总辐射数据，依次计算与光伏功率的皮尔逊相关系数PCC，每次移动一个点，偏移的方向和值由格兰杰因果检验GCT确定，与最大皮尔逊相关系数PCC值相对应的时间偏移被选为最优时间偏移量；

所述数据驱动的数据处理是指：

其中，D_sin，D_cos代表每天的周期特征，Y_sin，Y_cos代表每年的周期特征，t_dur表示从某个时间点到当前时间点的持续时间；

风速V_W和风向D_W变量被转换为风信息的水平和垂直分量W_x，W_y如下所示：

在输入数据驱动模型之前，对所有类型的数据进行规范化，最后，所有数值天气预报NWP都经过特征缩放处理，采用区间缩放来归一化输入特征，所有特征值都被缩放到[-1,1]区间内：

式中，x_r代表特征r的第r个样本值，x_max和x_min分别代表特征x的最大和最小值，x′_r代表归一化后的值。

由上述技术方案可知，本发明的有益效果为：第一，首先通过识别、插补、对收集的数据进行预处理然后采用超分辨率重构-双通道卷积神经网络处理被移除或缺失的数据；第二，本发明中的物理模型的数据处理，专门用于处理场数据的时空相关性，其中采用了格兰杰因果关系检验，最后引入特征生成技术来实现数据驱动模型的数据特征提取最大化；第三，由于通过超分辨率重构-双通道卷积神经网络对缺失数据进行了识别差补，弥补了分布式光伏电站的数据缺失问题，因为该神经网络的双通道处理，差补的缺失数据与原有的相关性较高；第四，分布式光伏的分布范围广且泛化能力较差，故在物理模型预测中加入格兰杰因果检验和皮尔逊相关系数，有效的解决了分布式光伏电站的时空性足的问题；第五，在数据驱动预测中加入了特征生成技术，通过特征生成技术实现了分布不同地区光伏站数据特征提取的最大化，提高了预测的泛化能力。

附图说明

图1为分布式光伏分布示意图；

图2为iForest进行数据清洗的流程图；

图3为展示数据集中不同特征之间的相关性示意图。

具体实施方式

一种提高分布式光伏预测精度的数据特征工程处理方法，该方法包括下列顺序的步骤：

iForest算法是由刘等人提出的一种适用于连续数据的无监督异常检测算法，用于检测和挖掘离群点。此外，孤立森林算法具有高计算效率和准确性，对全局稀疏点敏感，并适用于高维数据和大型数据集。它适用于处理风力和光伏发电功率测量数据中的异常点。

如图2所示，所述步骤(1)具体是指：所述iForest算法包括两个阶段：第一个阶段是构建由树组成的孤立森林，第二个阶段是判断异常程度；

所述异常程度判断具体是指：

式中，h(x)＝ln(x)+ξ，ξ是欧拉常数；

根据公式(1)，得出以下结论：

1)S(x)＝1，表示所有样本都异常；

2)S(x)＝0，表示所有样本中没有异常点；

3)S(x)在(0,1)之间，表示所有样本中没有明显的异常点。

与许多其他可再生能源一样，光伏电力高度依赖于天气条件。所述步骤(3)具体是指：通过皮尔逊相关系数PCC，分析气象数据中主要气象因素与光伏输出之间的相关性：

其中，r_XY和cov(X,Y)分别表示时间序列变量的PCC值和协方差，σ_X和σ_Y表示变量X,Y的标准差，E(·)表示变量的数学期望，PCC的绝对值越大，表明变量之间的相关性越强。数值天气预报NWP和光伏功率之间的相关系数如图3所示。

使用物理子模型进行分布式光伏功率估计和预测的起点是所谓的自下而上策略。它包括估计或预测所考虑区域内所有分布式光伏发电系统的发电量。在相邻的区域内，分布式光伏发电具有很强的时空相关性。在大多数情况下，气象测量点的数量远少于分布式光伏发电系统的数量。有时只有数值天气预报NWP数据可用。优化原始气象数据的时间偏移有助于提高物理模型的准确性和可信度，因为它可以更适当地匹配气象数据和物理模型。

特征生成(Feature Generation，FG)是一种应用于分布式光伏发电功率预测的新颖特征工程技术。FG的目标是从原始数据中挖掘出独立的特征，以供数据驱动模型学习。在特征生成过程中，时间戳的周期特征和天气数据中的风信息被编码。原始时间戳数据，如年、月、日、小时、分钟等信息，不适合作为输入编码。因此，根据每天和每年的周期性，它们被重新编码，以帮助数据驱动模型提高捕捉长期依赖的能力。

所述数据驱动的数据处理是指：

综上所述，本发明首先通过识别、插补、对收集的数据进行预处理然后采用超分辨率重构-双通道卷积神经网络处理被移除或缺失的数据；本发明中的物理模型的数据处理，专门用于处理场数据的时空相关性，其中采用了格兰杰因果关系检验，最后引入特征生成技术来实现数据驱动模型的数据特征提取最大化；由于通过超分辨率重构-双通道卷积神经网络对缺失数据进行了识别差补，弥补了分布式光伏电站的数据缺失问题，因为该神经网络的双通道处理，差补的缺失数据与原有的相关性较高。

Claims

1.一种提高分布式光伏预测精度的数据特征工程处理方法，其特征在于：该方法包括下列顺序的步骤：

2.根据权利要求1所述的提高分布式光伏预测精度的数据特征工程处理方法，其特征在于：所述步骤(1)具体是指：所述iForest算法包括两个阶段：第一个阶段是构建由树组成的孤立森林，第二个阶段是判断异常程度；

所述异常程度判断具体是指：

式中，h(x)＝ln(x)+ξ，ξ是欧拉常数；

根据公式(1)，得出以下结论：

1)S(x)＝1，表示所有样本都异常；

2)S(x)＝0，表示所有样本中没有异常点；

3)S(x)在(0,1)之间，表示所有样本中没有明显的异常点。

3.根据权利要求1所述的提高分布式光伏预测精度的数据特征工程处理方法，其特征在于：所述步骤(2)具体是指：超分辨率是一个欠定函数，将存在缺陷的缺失数据x映射到估计的完整数据y，表示为f_θ:x→y，超分辨率映射f_θ由卷积神经网络实现，该网络将缺陷的数据即短向量作为输入特征，长度为d_f，并输出长度为d_c，d_f<d_c的估计完整数据即长向量，由三个部分组成：特征提取部分、信息补充部分和重建部分；

4.根据权利要求1所述的提高分布式光伏预测精度的数据特征工程处理方法，其特征在于：所述步骤(3)具体是指：通过皮尔逊相关系数PCC，分析气象数据中主要气象因素与光伏输出之间的相关性：

5.根据权利要求1所述的提高分布式光伏预测精度的数据特征工程处理方法，其特征在于：在步骤(4)中，所述物理模型的数据处理是指：使用物理分布式光伏预测子模型进行分布式光伏功率估计和预测起点，包括估计或预测所考虑区域内所有分布式光伏发电系统的发电量，基于格兰杰因果检验GCT和皮尔逊相关系数PCC插值，将最优时间偏移方法引入到物理分布式光伏预测子模型中，选择最优时间偏移物理子模型；

所述数据驱动的数据处理是指：