CN116451035A - 一种提高分布式光伏预测精度的数据特征工程处理方法 - Google Patents
一种提高分布式光伏预测精度的数据特征工程处理方法 Download PDFInfo
- Publication number
- CN116451035A CN116451035A CN202310450686.3A CN202310450686A CN116451035A CN 116451035 A CN116451035 A CN 116451035A CN 202310450686 A CN202310450686 A CN 202310450686A CN 116451035 A CN116451035 A CN 116451035A
- Authority
- CN
- China
- Prior art keywords
- data
- distributed photovoltaic
- feature
- reconstruction
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000001364 causal effect Effects 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 238000010219 correlation analysis Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 20
- 238000010248 power generation Methods 0.000 claims description 17
- 230000005856 abnormality Effects 0.000 claims description 15
- 230000005855 radiation Effects 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 230000002950 deficient Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000001502 supplementing effect Effects 0.000 claims description 6
- 230000000737 periodic effect Effects 0.000 claims description 5
- 230000007547 defect Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000013179 statistical model Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000013459 approach Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000002803 fossil fuel Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/004—Generation forecast, e.g. methods or systems for forecasting future energy generation
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/22—The renewable source being solar energy
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Power Engineering (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种提高分布式光伏预测精度的数据特征工程处理方法,包括:基于iForest算法进行初始数据识别;超分辨率重构‑双通道卷积神经网络进行数据重构,得到重构数据;通过皮尔逊相关系数将得到的重构数据进行相关性的分析;通过相关性的分析和格兰杰因果检验GCT找到最优时间偏移量输入进物理模型,将风速和风向进行变换和气象数据的归一化输入数据驱动模型进行处理。本发明中的物理模型的数据处理,专门用于处理场数据的时空相关性,最后引入特征生成技术来实现数据驱动模型的数据特征提取最大化;对缺失数据进行了识别差补,弥补了分布式光伏电站的数据缺失问题,因为该神经网络的双通道处理,差补的缺失数据与原有的相关性较高。
Description
技术领域
本发明涉及电力系统预测技术领域,尤其是一种提高分布式光伏预测精度的数据特征工程处理方法。
背景技术
在碳排放和化石燃料枯竭的压力下,太阳能光伏发电是近年来增长最快的能源形式。根据国际能源署(International Energy Agency,IEA)的数据,全球光伏市场在2021年达到了至少942GW的规模。这种指数增长的很大一部分是由于小规模、分布式系统在住宅和商业建筑的屋顶上出现。分布式光伏容量预计将在2024年达到530GW。光伏发电的不确定性对电网稳定性、可靠性和调度产生负面影响。准确、高效的光伏功率短期预测在提高电网稳定性、经济调度和确保电力质量方面发挥着至关重要的作用。
目前,短期光伏预测方法可以分为两个主要类别:物理模型方法和数据驱动方法,其中,物理模型方法包括使用分析方程来描述光伏系统内部能量转换机制的“白盒子”方法,数据驱动方法采用统计和机器学习算法。目前大多数研究都使用了数据驱动方法。
随着光伏发电量的巨大增长,短期预测方法在电力系统的可靠和经济运行中发挥着重要作用。对于分布式光伏系统,由于其分布位置的多样性、气象信息的多样性和数据采集设备的限制,预测方法面临更大的挑战,如图1所示。与大规模且地理位置集中的光伏电站不同,分布式光伏发电装置地理位置分散,此外,分布式光伏发电装置通信和监测设备经常部分缺失,导致一些功率和气象数据的丢失。因此,相对于光伏电站,实现分布式光伏短期预测的高精度更为复杂。无论是物理模型还是数据驱动的模型的精确预测对数据的需求以及特征都相对较高的,但是新型的光伏系统的数据缺失严重,分布也相对分散,所以上述的预测工具用于分布式光伏的预测的准确性以及泛化能力明显不足,急需研发一种提高分布式光伏预测精度的数据特征工程处理方法。
发明内容
为解决分布式光伏数据缺失和分布分散的缺陷,本发明的目的在于提供一种提高分布式光伏短期预测的泛化能力和精度的提高分布式光伏预测精度的数据特征工程处理方法。
为实现上述目的,本发明采用了以下技术方案:一种提高分布式光伏预测精度的数据特征工程处理方法,该方法包括下列顺序的步骤:
(1)基于iForest算法进行初始数据识别:分布式光伏站的得到的数据存在着异常和缺失的情况,通过iForest算法对初始的数据进行异常值的清洗;
(2)超分辨率重构-双通道卷积神经网络进行数据重构:清洗后的数据存在的还存在着缺失,通过超分辨率重构-双通道卷积神经网络将缺失的数据进行插补,得到重构数据;
(3)进行相关性分析:通过皮尔逊相关系数将得到的重构数据进行相关性的分析;
(4)进行物理模型与数据驱动模型的数据处理:通过相关性的分析和格兰杰因果检验GCT找到最优时间偏移量输入进物理模型,将风速和风向进行变换和气象数据的归一化输入数据驱动模型进行处理。
所述步骤(1)具体是指:所述iForest算法包括两个阶段:第一个阶段是构建由树组成的孤立森林,第二个阶段是判断异常程度;
所述异常程度判断具体是指:
在获得t个iTree之后,进行iForest的构建,在每棵树中,搜索x即样本集中的样本点,通过公式(1)计算出异常指数,来判断异常程度:
式中,S(x)是检测到的样本的异常指数,取值在0到1之间,E(h(x))是需要在iTree上测量x的平均路径长度,c(v)是由训练数据x中v个点组成的二叉树的平均搜索路径长度:
式中,h(x)=ln(x)+ξ,ξ是欧拉常数;
根据公式(1),得出以下结论:
1)S(x)=1,表示所有样本都异常;
2)S(x)=0,表示所有样本中没有异常点;
3)S(x)在(0,1)之间,表示所有样本中没有明显的异常点。
所述步骤(2)具体是指:超分辨率是一个欠定函数,将存在缺陷的缺失数据x映射到估计的完整数据y,表示为fθ:x→y,超分辨率映射fθ由卷积神经网络实现,该网络将缺陷的数据即短向量作为输入特征,长度为df,并输出长度为dc,df<dc的估计完整数据即长向量,由三个部分组成:特征提取部分、信息补充部分和重建部分;
给定具有p个实例和df个特征的输入特征提取部分从X中提取特征,每个实例的特征由m个特征向量表示,每个向量长度为df,这些特征/>包含输入X的抽象特征信息;
之后,信息补充部分包含一个全局残差连接和n个局部残差块,将缺失信息补充到特征向量中,在每个局部残差块中,卷积层在输入和输出特征空间之间执行非线性映射;
最后,重建部分将每个实例的特征向量集成为α个子向量,每个子向量长度为df,这些子向量被重新排列为估计的完整数据/>子向量使用卷积操作并行生成,超分辨率重构-双通道卷积神经网络的输出由原始数据重建来估计出完整数据。
所述步骤(3)具体是指:通过皮尔逊相关系数PCC,分析气象数据中主要气象因素与光伏输出之间的相关性:
其中,rXY和cov(X,Y)分别表示时间序列变量的PCC值和协方差,σX和σY表示变量X,Y的标准差,E(·)表示变量的数学期望,PCC的绝对值越大,表明变量之间的相关性越强。
在步骤(4)中,所述物理模型的数据处理是指:使用物理分布式光伏预测子模型进行分布式光伏功率估计和预测起点,包括估计或预测所考虑区域内所有分布式光伏发电系统的发电量,基于格兰杰因果检验GCT和皮尔逊相关系数PCC插值,将最优时间偏移方法引入到物理分布式光伏预测子模型中,选择最优时间偏移物理子模型;
引入格兰杰因果检验GCT测试时间序列变量之间的因果关系,若统计模型中的滞后变量X能够解释变量Y,则认为X是Y的格兰杰因素,时间偏移的方向和值由格兰杰因果检验GCT确定:
其中,αi、βi是无限制回归模型的系数,εi是单变量白噪声,s是最高滞后项,Yt表示当前样本,Yt-i表示之前的样本,非因果性的零假设对应于H0:βj=0,j=1,…,s,通过比较估计精度,确定变量Y和变量X之间的格兰杰因果关系;对于每个分布式光伏发电系统,使用阿卡伊克准则确定滞后最高滞后项s的最佳值;
根据格兰杰因果检验GCT,随机选择总辐射数据:首先,使用三次样条插值方法对具有15分钟时间间隔的总辐射数据进行加密,以生成具有5分钟时间间隔的密集数据;通过左右移动密集的总辐射数据,依次计算与光伏功率的皮尔逊相关系数PCC,每次移动一个点,偏移的方向和值由格兰杰因果检验GCT确定,与最大皮尔逊相关系数PCC值相对应的时间偏移被选为最优时间偏移量;
所述数据驱动的数据处理是指:
其中,Dsin,Dcos代表每天的周期特征,Ysin,Ycos代表每年的周期特征,tdur表示从某个时间点到当前时间点的持续时间;
风速VW和风向DW变量被转换为风信息的水平和垂直分量Wx,Wy如下所示:
在输入数据驱动模型之前,对所有类型的数据进行规范化,最后,所有数值天气预报NWP都经过特征缩放处理,采用区间缩放来归一化输入特征,所有特征值都被缩放到[-1,1]区间内:
式中,xr代表特征r的第r个样本值,xmax和xmin分别代表特征x的最大和最小值,x′r代表归一化后的值。
由上述技术方案可知,本发明的有益效果为:第一,首先通过识别、插补、对收集的数据进行预处理然后采用超分辨率重构-双通道卷积神经网络处理被移除或缺失的数据;第二,本发明中的物理模型的数据处理,专门用于处理场数据的时空相关性,其中采用了格兰杰因果关系检验,最后引入特征生成技术来实现数据驱动模型的数据特征提取最大化;第三,由于通过超分辨率重构-双通道卷积神经网络对缺失数据进行了识别差补,弥补了分布式光伏电站的数据缺失问题,因为该神经网络的双通道处理,差补的缺失数据与原有的相关性较高;第四,分布式光伏的分布范围广且泛化能力较差,故在物理模型预测中加入格兰杰因果检验和皮尔逊相关系数,有效的解决了分布式光伏电站的时空性足的问题;第五,在数据驱动预测中加入了特征生成技术,通过特征生成技术实现了分布不同地区光伏站数据特征提取的最大化,提高了预测的泛化能力。
附图说明
图1为分布式光伏分布示意图;
图2为iForest进行数据清洗的流程图;
图3为展示数据集中不同特征之间的相关性示意图。
具体实施方式
一种提高分布式光伏预测精度的数据特征工程处理方法,该方法包括下列顺序的步骤:
(1)基于iForest算法进行初始数据识别:分布式光伏站的得到的数据存在着异常和缺失的情况,通过iForest算法对初始的数据进行异常值的清洗;
(2)超分辨率重构-双通道卷积神经网络进行数据重构:清洗后的数据存在的还存在着缺失,通过超分辨率重构-双通道卷积神经网络将缺失的数据进行插补,得到重构数据;
(3)进行相关性分析:通过皮尔逊相关系数将得到的重构数据进行相关性的分析;
(4)进行物理模型与数据驱动模型的数据处理:通过相关性的分析和格兰杰因果检验GCT找到最优时间偏移量输入进物理模型,将风速和风向进行变换和气象数据的归一化输入数据驱动模型进行处理。
iForest算法是由刘等人提出的一种适用于连续数据的无监督异常检测算法,用于检测和挖掘离群点。此外,孤立森林算法具有高计算效率和准确性,对全局稀疏点敏感,并适用于高维数据和大型数据集。它适用于处理风力和光伏发电功率测量数据中的异常点。
如图2所示,所述步骤(1)具体是指:所述iForest算法包括两个阶段:第一个阶段是构建由树组成的孤立森林,第二个阶段是判断异常程度;
所述异常程度判断具体是指:
在获得t个iTree之后,进行iForest的构建,在每棵树中,搜索x即样本集中的样本点,通过公式(1)计算出异常指数,来判断异常程度:
式中,S(x)是检测到的样本的异常指数,取值在0到1之间,E(h(x))是需要在iTree上测量x的平均路径长度,c(v)是由训练数据x中v个点组成的二叉树的平均搜索路径长度:
式中,h(x)=ln(x)+ξ,ξ是欧拉常数;
根据公式(1),得出以下结论:
1)S(x)=1,表示所有样本都异常;
2)S(x)=0,表示所有样本中没有异常点;
3)S(x)在(0,1)之间,表示所有样本中没有明显的异常点。
所述步骤(2)具体是指:超分辨率是一个欠定函数,将存在缺陷的缺失数据x映射到估计的完整数据y,表示为fθ:x→y,超分辨率映射fθ由卷积神经网络实现,该网络将缺陷的数据即短向量作为输入特征,长度为df,并输出长度为dc,df<dc的估计完整数据即长向量,由三个部分组成:特征提取部分、信息补充部分和重建部分;
给定具有p个实例和df个特征的输入特征提取部分从X中提取特征,每个实例的特征由m个特征向量表示,每个向量长度为df,这些特征/>包含输入X的抽象特征信息;
之后,信息补充部分包含一个全局残差连接和n个局部残差块,将缺失信息补充到特征向量中,在每个局部残差块中,卷积层在输入和输出特征空间之间执行非线性映射;
最后,重建部分将每个实例的特征向量集成为α个子向量,每个子向量长度为df,这些子向量被重新排列为估计的完整数据/>子向量使用卷积操作并行生成,超分辨率重构-双通道卷积神经网络的输出由原始数据重建来估计出完整数据。
与许多其他可再生能源一样,光伏电力高度依赖于天气条件。所述步骤(3)具体是指:通过皮尔逊相关系数PCC,分析气象数据中主要气象因素与光伏输出之间的相关性:
其中,rXY和cov(X,Y)分别表示时间序列变量的PCC值和协方差,σX和σY表示变量X,Y的标准差,E(·)表示变量的数学期望,PCC的绝对值越大,表明变量之间的相关性越强。数值天气预报NWP和光伏功率之间的相关系数如图3所示。
在步骤(4)中,所述物理模型的数据处理是指:使用物理分布式光伏预测子模型进行分布式光伏功率估计和预测起点,包括估计或预测所考虑区域内所有分布式光伏发电系统的发电量,基于格兰杰因果检验GCT和皮尔逊相关系数PCC插值,将最优时间偏移方法引入到物理分布式光伏预测子模型中,选择最优时间偏移物理子模型;
使用物理子模型进行分布式光伏功率估计和预测的起点是所谓的自下而上策略。它包括估计或预测所考虑区域内所有分布式光伏发电系统的发电量。在相邻的区域内,分布式光伏发电具有很强的时空相关性。在大多数情况下,气象测量点的数量远少于分布式光伏发电系统的数量。有时只有数值天气预报NWP数据可用。优化原始气象数据的时间偏移有助于提高物理模型的准确性和可信度,因为它可以更适当地匹配气象数据和物理模型。
引入格兰杰因果检验GCT测试时间序列变量之间的因果关系,若统计模型中的滞后变量X能够解释变量Y,则认为X是Y的格兰杰因素,时间偏移的方向和值由格兰杰因果检验GCT确定:
其中,αi、βi是无限制回归模型的系数,εi是单变量白噪声,s是最高滞后项,Yt表示当前样本,Yt-i表示之前的样本,非因果性的零假设对应于H0:βj=0,j=1,…,s,通过比较估计精度,确定变量Y和变量X之间的格兰杰因果关系;对于每个分布式光伏发电系统,使用阿卡伊克准则确定滞后最高滞后项s的最佳值;
根据格兰杰因果检验GCT,随机选择总辐射数据:首先,使用三次样条插值方法对具有15分钟时间间隔的总辐射数据进行加密,以生成具有5分钟时间间隔的密集数据;通过左右移动密集的总辐射数据,依次计算与光伏功率的皮尔逊相关系数PCC,每次移动一个点,偏移的方向和值由格兰杰因果检验GCT确定,与最大皮尔逊相关系数PCC值相对应的时间偏移被选为最优时间偏移量;
特征生成(Feature Generation,FG)是一种应用于分布式光伏发电功率预测的新颖特征工程技术。FG的目标是从原始数据中挖掘出独立的特征,以供数据驱动模型学习。在特征生成过程中,时间戳的周期特征和天气数据中的风信息被编码。原始时间戳数据,如年、月、日、小时、分钟等信息,不适合作为输入编码。因此,根据每天和每年的周期性,它们被重新编码,以帮助数据驱动模型提高捕捉长期依赖的能力。
所述数据驱动的数据处理是指:
其中,Dsin,Dcos代表每天的周期特征,Ysin,Ycos代表每年的周期特征,tdur表示从某个时间点到当前时间点的持续时间;
风速VW和风向DW变量被转换为风信息的水平和垂直分量Wx,Wy如下所示:
在输入数据驱动模型之前,对所有类型的数据进行规范化,最后,所有数值天气预报NWP都经过特征缩放处理,采用区间缩放来归一化输入特征,所有特征值都被缩放到[-1,1]区间内:
式中,xr代表特征r的第r个样本值,xmax和xmin分别代表特征x的最大和最小值,x′r代表归一化后的值。
综上所述,本发明首先通过识别、插补、对收集的数据进行预处理然后采用超分辨率重构-双通道卷积神经网络处理被移除或缺失的数据;本发明中的物理模型的数据处理,专门用于处理场数据的时空相关性,其中采用了格兰杰因果关系检验,最后引入特征生成技术来实现数据驱动模型的数据特征提取最大化;由于通过超分辨率重构-双通道卷积神经网络对缺失数据进行了识别差补,弥补了分布式光伏电站的数据缺失问题,因为该神经网络的双通道处理,差补的缺失数据与原有的相关性较高。
Claims (5)
1.一种提高分布式光伏预测精度的数据特征工程处理方法,其特征在于:该方法包括下列顺序的步骤:
(1)基于iForest算法进行初始数据识别:分布式光伏站的得到的数据存在着异常和缺失的情况,通过iForest算法对初始的数据进行异常值的清洗;
(2)超分辨率重构-双通道卷积神经网络进行数据重构:清洗后的数据存在的还存在着缺失,通过超分辨率重构-双通道卷积神经网络将缺失的数据进行插补,得到重构数据;
(3)进行相关性分析:通过皮尔逊相关系数将得到的重构数据进行相关性的分析;
(4)进行物理模型与数据驱动模型的数据处理:通过相关性的分析和格兰杰因果检验GCT找到最优时间偏移量输入进物理模型,将风速和风向进行变换和气象数据的归一化输入数据驱动模型进行处理。
2.根据权利要求1所述的提高分布式光伏预测精度的数据特征工程处理方法,其特征在于:所述步骤(1)具体是指:所述iForest算法包括两个阶段:第一个阶段是构建由树组成的孤立森林,第二个阶段是判断异常程度;
所述异常程度判断具体是指:
在获得t个iTree之后,进行iForest的构建,在每棵树中,搜索x即样本集中的样本点,通过公式(1)计算出异常指数,来判断异常程度:
式中,S(x)是检测到的样本的异常指数,取值在0到1之间,E(h(x))是需要在iTree上测量x的平均路径长度,c(v)是由训练数据x中v个点组成的二叉树的平均搜索路径长度:
式中,h(x)=ln(x)+ξ,ξ是欧拉常数;
根据公式(1),得出以下结论:
1)S(x)=1,表示所有样本都异常;
2)S(x)=0,表示所有样本中没有异常点;
3)S(x)在(0,1)之间,表示所有样本中没有明显的异常点。
3.根据权利要求1所述的提高分布式光伏预测精度的数据特征工程处理方法,其特征在于:所述步骤(2)具体是指:超分辨率是一个欠定函数,将存在缺陷的缺失数据x映射到估计的完整数据y,表示为fθ:x→y,超分辨率映射fθ由卷积神经网络实现,该网络将缺陷的数据即短向量作为输入特征,长度为df,并输出长度为dc,df<dc的估计完整数据即长向量,由三个部分组成:特征提取部分、信息补充部分和重建部分;
给定具有p个实例和df个特征的输入特征提取部分从X中提取特征,每个实例的特征由m个特征向量表示,每个向量长度为df,这些特征/>包含输入X的抽象特征信息;
之后,信息补充部分包含一个全局残差连接和n个局部残差块,将缺失信息补充到特征向量中,在每个局部残差块中,卷积层在输入和输出特征空间之间执行非线性映射;
最后,重建部分将每个实例的特征向量集成为α个子向量,每个子向量长度为df,这些子向量被重新排列为估计的完整数据/>子向量使用卷积操作并行生成,超分辨率重构-双通道卷积神经网络的输出由原始数据重建来估计出完整数据。
4.根据权利要求1所述的提高分布式光伏预测精度的数据特征工程处理方法,其特征在于:所述步骤(3)具体是指:通过皮尔逊相关系数PCC,分析气象数据中主要气象因素与光伏输出之间的相关性:
其中,rXY和cov(X,Y)分别表示时间序列变量的PCC值和协方差,σX和σY表示变量X,Y的标准差,E(·)表示变量的数学期望,PCC的绝对值越大,表明变量之间的相关性越强。
5.根据权利要求1所述的提高分布式光伏预测精度的数据特征工程处理方法,其特征在于:在步骤(4)中,所述物理模型的数据处理是指:使用物理分布式光伏预测子模型进行分布式光伏功率估计和预测起点,包括估计或预测所考虑区域内所有分布式光伏发电系统的发电量,基于格兰杰因果检验GCT和皮尔逊相关系数PCC插值,将最优时间偏移方法引入到物理分布式光伏预测子模型中,选择最优时间偏移物理子模型;
引入格兰杰因果检验GCT测试时间序列变量之间的因果关系,若统计模型中的滞后变量X能够解释变量Y,则认为X是Y的格兰杰因素,时间偏移的方向和值由格兰杰因果检验GCT确定:
其中,αi、βi是无限制回归模型的系数,εi是单变量白噪声,s是最高滞后项,Yt表示当前样本,Yt-i表示之前的样本,非因果性的零假设对应于H0:βj=0,j=1,…,s,通过比较估计精度,确定变量Y和变量X之间的格兰杰因果关系;对于每个分布式光伏发电系统,使用阿卡伊克准则确定滞后最高滞后项s的最佳值;
根据格兰杰因果检验GCT,随机选择总辐射数据:首先,使用三次样条插值方法对具有15分钟时间间隔的总辐射数据进行加密,以生成具有5分钟时间间隔的密集数据;通过左右移动密集的总辐射数据,依次计算与光伏功率的皮尔逊相关系数PCC,每次移动一个点,偏移的方向和值由格兰杰因果检验GCT确定,与最大皮尔逊相关系数PCC值相对应的时间偏移被选为最优时间偏移量;
所述数据驱动的数据处理是指:
其中,Dsin,Dcos代表每天的周期特征,Ysin,Ycos代表每年的周期特征,tdur表示从某个时间点到当前时间点的持续时间;
风速VW和风向DW变量被转换为风信息的水平和垂直分量Wx,Wy如下所示:
在输入数据驱动模型之前,对所有类型的数据进行规范化,最后,所有数值天气预报NWP都经过特征缩放处理,采用区间缩放来归一化输入特征,所有特征值都被缩放到[-1,1]区间内:
式中,xr代表特征r的第r个样本值,xmax和xmin分别代表特征x的最大和最小值,x′r代表归一化后的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310450686.3A CN116451035A (zh) | 2023-04-25 | 2023-04-25 | 一种提高分布式光伏预测精度的数据特征工程处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310450686.3A CN116451035A (zh) | 2023-04-25 | 2023-04-25 | 一种提高分布式光伏预测精度的数据特征工程处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116451035A true CN116451035A (zh) | 2023-07-18 |
Family
ID=87130030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310450686.3A Pending CN116451035A (zh) | 2023-04-25 | 2023-04-25 | 一种提高分布式光伏预测精度的数据特征工程处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116451035A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116589078A (zh) * | 2023-07-19 | 2023-08-15 | 莒县环境监测站 | 基于数据融合的污水处理智能控制方法及系统 |
CN117605627A (zh) * | 2024-01-22 | 2024-02-27 | 南京讯联液压技术股份有限公司 | 一种风电齿轮箱冷却器芯体漏油检测系统及方法 |
CN117786587A (zh) * | 2024-02-28 | 2024-03-29 | 深圳市福山自动化科技有限公司 | 基于数据分析的电网数据质量异常诊断方法 |
-
2023
- 2023-04-25 CN CN202310450686.3A patent/CN116451035A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116589078A (zh) * | 2023-07-19 | 2023-08-15 | 莒县环境监测站 | 基于数据融合的污水处理智能控制方法及系统 |
CN116589078B (zh) * | 2023-07-19 | 2023-09-26 | 莒县环境监测站 | 基于数据融合的污水处理智能控制方法及系统 |
CN117605627A (zh) * | 2024-01-22 | 2024-02-27 | 南京讯联液压技术股份有限公司 | 一种风电齿轮箱冷却器芯体漏油检测系统及方法 |
CN117605627B (zh) * | 2024-01-22 | 2024-03-19 | 南京讯联液压技术股份有限公司 | 一种风电齿轮箱冷却器芯体漏油检测系统及方法 |
CN117786587A (zh) * | 2024-02-28 | 2024-03-29 | 深圳市福山自动化科技有限公司 | 基于数据分析的电网数据质量异常诊断方法 |
CN117786587B (zh) * | 2024-02-28 | 2024-06-04 | 国网河南省电力公司经济技术研究院 | 基于数据分析的电网数据质量异常诊断方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jebli et al. | Prediction of solar energy guided by pearson correlation using machine learning | |
CN116451035A (zh) | 一种提高分布式光伏预测精度的数据特征工程处理方法 | |
CN114707688A (zh) | 基于卫星云图和时空神经网络的光伏功率超短期预测方法 | |
CN105160423A (zh) | 一种基于马尔科夫残差修正的光伏发电预测方法 | |
CN114510513A (zh) | 用于光伏功率超短期预测的短临气象预报数据处理方法 | |
CN116307291B (zh) | 一种基于小波分解的分布式光伏发电预测方法及预测终端 | |
CN106228030A (zh) | 一种基于小波变换的精细粒度自学习集成预测方法 | |
CN114399081A (zh) | 一种基于天气分类的光伏发电功率预测方法 | |
CN115936177A (zh) | 一种基于神经网络的光伏输出功率预测方法及系统 | |
CN110852492A (zh) | 一种基于马氏距离找相似的光伏功率超短期预测方法 | |
CN114676622A (zh) | 基于自编码器深度学习模型的短期光伏功率预测方法 | |
Kaur et al. | Solar power forecasting using ordinary least square based regression algorithms | |
CN117951577A (zh) | 一种虚拟电厂能源状态感知方法 | |
CN113984198B (zh) | 一种基于卷积神经网络的短波辐射预测方法及系统 | |
Shirbhate et al. | Solar panel monitoring and energy prediction for smart solar system | |
CN117725399A (zh) | 一种嵌入长短期记忆细胞的编码器负荷预测方法 | |
CN117856222A (zh) | 光伏出力预测方法、装置、电子设备及存储介质 | |
CN117113243B (zh) | 一种光伏设备异常检测方法 | |
CN117893058A (zh) | 光伏场站性能综合评估的方法及系统 | |
CN116826727A (zh) | 基于时序表征和多级注意力的超短期风电功率预测方法及预测系统 | |
CN115296298A (zh) | 一种风电场功率预测方法 | |
CN115764861A (zh) | 一种基于机器学习的风光一体化功率预测方法 | |
CN112116127B (zh) | 一种基于气象过程与功率波动关联的光伏功率预测方法 | |
Katranji et al. | Short-Term Wind Speed Prediction for Saudi Arabia via 1D-CNN | |
Xia et al. | Research on Solar Radiation Estimation based on Singular Spectrum Analysis-Deep Belief Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |