CN114090559A - 一种光伏电站异常数据清洗的方法 - Google Patents
一种光伏电站异常数据清洗的方法 Download PDFInfo
- Publication number
- CN114090559A CN114090559A CN202111354756.2A CN202111354756A CN114090559A CN 114090559 A CN114090559 A CN 114090559A CN 202111354756 A CN202111354756 A CN 202111354756A CN 114090559 A CN114090559 A CN 114090559A
- Authority
- CN
- China
- Prior art keywords
- data
- cleaning
- abnormal
- power station
- irradiance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 77
- 238000004140 cleaning Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 230000007613 environmental effect Effects 0.000 claims abstract description 9
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 238000010248 power generation Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 4
- 239000002356 single layer Substances 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 206010010947 Coordination abnormal Diseases 0.000 description 1
- 101100533306 Mus musculus Setx gene Proteins 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Water Supply & Treatment (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Photovoltaic Devices (AREA)
Abstract
本发明涉及一种光伏电站异常数据清洗的方法,该方法包括以下步骤:⑴选取原始数据:收集某个光伏电站的历史运行数据以及历史气象数据为原始数据样本,并确认样本分布情况;⑵建立数据索引:对原始数据样本中的环境数据以及光伏电站历史功率数据进行标签,按照时间轴进行数据对齐;⑶二步分位数算法的第一步:按照辐照度和功率数据关系进行清洗;⑷二步分位数算法的第二步:按照温度和功率数据关系进行清洗;⑸清洗结果整理:将第二步清洗后的数据进行重新整理,按照辐照度、温度以及功率三种参数种类对结果数据进行重构,使正常数据的分布趋势符合光伏阵列多维理论电气参数关系即可。本发明具有有效性和可行性。
Description
技术领域
本发明涉及光伏发电技术领域,尤其涉及一种光伏电站异常数据清洗的方法。
背景技术
近年来,光伏发电发展迅速,装机容量快速增长,使得光伏发电系统智能化运行显得尤为重要。光伏发电高质量和高可靠性的数据是光伏系统实现智能运行的基础。然而光伏发电系统在实际运行过程中采集到的运行数据存在大量的异常值,造成这些异常值的原因多种多样,包括数据采集传播系统的信号噪声、最大功率跟踪异常以及阵列停机等因素。对这些异常数据的清洗是提高数据质量、实现光伏智能运行的关键环节,具有重要意义。
目前,有关新能源发电系统数据清洗的研究大致可以分为两种,分别是全局概率统计法和基于人工智能的数据清洗方法。全局概率统计方法通过对功率曲线类似的历史样本数据建立统计学模型实现异常数据的识别和清洗,方法较为成熟,但是其缺点在于当大量异常数据局部堆积时会造成部分数据误清洗,且全局概率统计方法的数据筛选结构易受到样本数据分布的影响。基于人工智能的数据清洗方法对理论要求弱,技术性强,通过计算机进行大量重复地计算实现异常数据的识别和清洗,但其缺点在于人工智能方法的泛化能力需要对大量的样本数据进行训练学习,实际过程中样本数据量难以保证;另外,部分人工智能方法所得结果的物理意义难以解释。
由于光伏出力会同时受到多维外部因素的影响,其中主要的影响因素为辐照度和温度。大多数学者考虑从环境因素入手研究其与电气参数之间的关系,从而判断光伏电站异常数据,但大多数研究只考虑了某一单层关系,例如温度与电压之间的单层关系或辐照度和功率的单层关系。而事实上,光伏电站的实际运行数据受到辐照度、温度等多方面的影响,其出力分布受到多变量的影响。
发明内容
本发明所要解决的技术问题是提供一种具有有效性和可行性的光伏电站异常数据清洗的方法。
为解决上述问题,本发明所述的一种光伏电站异常数据清洗的方法,包括以下步骤:
⑴选取原始数据:
收集某个光伏电站的历史运行数据以及历史气象数据为原始数据样本,并确认样本分布情况;
⑵建立数据索引:
对原始数据样本中的环境数据以及光伏电站历史功率数据进行标签,按照时间轴进行数据对齐;
⑶二步分位数算法的第一步:按照辐照度和功率数据关系进行清洗;
⑷二步分位数算法的第二步:按照温度和功率数据关系进行清洗;
⑸清洗结果整理:
将第二步清洗后的数据进行重新整理,按照辐照度、温度以及功率三种参数种类对结果数据进行重构,使正常数据的分布趋势符合光伏阵列多维理论电气参数关系即可。
所述步骤⑵中环境数据是指辐照度数据和温度数据。
所述步骤⑶中按照辐照度和功率数据关系进行清洗的方法是指先索引原始数据中的辐照度与光伏输出功率数据,并清洗辐照度零值点数据;然后设置分位数参数,按分位数算法获得样本数据的异常值内限,并以此为依据对数据进行划分,最后将数据异常值内限之外的数据进行清洗。
所述步骤⑷中按照温度和功率数据关系进行清洗的方法是指先索引第一步清洗后的数据中温度与光伏输出功率数据;然后设置分位数参数,按分位数算法获得样本数据的异常值内限,并以此为依据对数据进行划分,最后将数据异常值内限之外的数据进行清洗。
所述数据划分公式为:
式中:Y l,i 表示第i维的异常数据集,Y n,i 表示第i维的正常数据集;x j 表示第j个异常数据,x k 表示第k个正常数据;F 1,i 表示数据异常值内限中的下限,F u,i 表示数据异常值内限的上限;S 1,S 2分别表示异常数据和正常数据的个数;i为维度;R为实数集。
本发明与现有技术相比具有以下优点:
1、本发明考虑多个环境因素来实现光伏阵列异常数据清洗,利用分位数算法分两步对光伏阵列异常数据进行清洗,从而实现光伏电站异常数据的有效识别和筛选。
2、采用本发明方法后,不仅能有效识别不同条件下的异常数据,还能将底部堆叠的异常值准确识别,说明本发明方法对于光伏电站数据清洗具有有效性和可行性。同时经测试,采用本发明方法后异常数据错误识别率远远小于单一四分位数方法。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明。
图1为本发明的流程图。
图2为本发明不同光伏电站运行数据清洗的结果。其中:左图为350M202M4M355汇流箱数据,右图为350M202M4M356汇流箱数据。
具体实施方式
如图1所示,一种光伏电站异常数据清洗的方法,包括以下步骤:
⑴选取原始数据:
收集某个光伏电站的历史运行数据以及历史气象数据为原始数据样本,并确认样本分布情况。
⑵建立数据索引:
对原始数据样本中的环境数据(辐照度、温度)以及光伏电站历史功率数据进行标签,按照时间轴进行数据对齐,方便后续索引与分析。
⑶二步分位数算法的第一步:按照辐照度和功率数据关系进行清洗。
先索引原始数据中的辐照度与光伏输出功率数据,并清洗辐照度零值点数据,避免零值点数据堆积影响分位数算法识别;然后设置分位数参数,按分位数算法获得样本数据的异常值内限,并以此为依据对数据进行划分,最后将数据异常值内限之外的数据进行清洗。
其中:数据划分公式为:
式中:Y l,i 表示第i维的异常数据集,Y n,i 表示第i维的正常数据集;x j 表示第j个异常数据,x k 表示第k个正常数据;F 1,i 表示数据异常值内限中的下限,F u,i 表示数据异常值内限的上限;S 1,S 2分别表示异常数据和正常数据的个数;i为维度;R为实数集。
⑷二步分位数算法的第二步:按照温度和功率数据关系进行清洗。
先索引第一步清洗后的数据中温度与光伏输出功率数据;然后设置分位数参数,按分位数算法获得样本数据的异常值内限,并以此为依据对数据进行划分,最后将数据异常值内限之外的数据进行清洗。
其中:数据划分公式同步骤⑶。
⑸清洗结果整理:
将第二步清洗后的数据进行重新整理,按照辐照度、温度以及功率三种参数种类对结果数据进行重构,使正常数据的分布趋势符合光伏阵列多维理论电气参数关系即可。
实施例 一种光伏电站异常数据清洗的方法,包括以下步骤:
⑴采用某光伏电站两个汇流箱(350M202M4M355汇流箱和350M202M4M356汇流箱)6个月内实测运行数据以及环境数据(包括历史辐照度数据和历史温度数据等)为原始数据样本,并确认样本分布情况。
⑵建立数据索引:
对原始数据样本中的环境数据(辐照度、温度)以及光伏电站历史功率数据进行标签,按照时间轴进行数据对齐。
⑶二步分位数算法的第一步:按照辐照度和功率数据关系进行清洗。具体过程如下:
先索引原始数据中的辐照度与光伏输出功率数据,并清洗辐照度零值点数据,避免零值点数据堆积影响分位数算法识别;然后设置分位数参数,按分位数算法获得样本数据的异常值内限,并以此为依据对数据进行划分,最后将数据异常值内限之外的数据进行清洗。
分位法是统计学中分析数据集分布特征的重要方法,该方法是指将数据集中的全部数据按大小顺序依次排列并分为四等份,处于分割点位置的三个数值Q 1 、Q 2 、Q 3就是分位数。分位数的计算方法如下:
已知一个升序排列的样本集合X=[x 1 x 2…x n],对样本集合X依次计算中位数Q 2、第一个四分位数Q 1以及第三个分位数Q 3:
①第2个分位数即中位数Q 2的计算公式如下:
②第1个分位数Q 1和第三个分位数Q 3的计算公式如下:
当n=2k(k=1,2,…)时,从Q 2处将X分为两个部分(不包含Q 2)分别计算这两部分的中位数,得到的这两个中位数即为Q 1和Q 3。
当n=4k+3(k=0,1,2,…)时,有
其中a,b为分位点参数,有0<a<1,0<b<1,a+b=1。
同理,当n=4k+1(k=0,1,2,…)时,有
③分位距I QR 的计算公式如下:
得到样本数据的异常值的内限:
样本X中处于内限外的数据都为异常数据,即异常数据集为
表1为不同分位数参数设置的数据清洗效果。由表1可以看出,参数a数值设置越大,对数据的删除率就越高。较大的a值保证了剩余数据的高准确率,但是也会造成大量的数据误清洗。所以要根据实际数据的清洗要求设置对应的分位数参数,以达到更好的应用效果。
表1 去除零值点下不同分位点设置下分位数算法清洗结果
光伏电站输出功率受到辐照度与环境温度的多重影响,故单一维度的分位数算法数据清洗无法适应不同的数据清洗需求。将光伏发电的样本数据按照不同种类数据,例如光伏输出功率与辐照度,光伏输出功率与温度两种关系进行分类。得到样本数据集Y 1,Y 2,其中Y i ={Y n,i ,Y l,i } i=1,2,Y n,1表示第i维的正常数据集,Y l,i 表示第i维的异常数据集。选取分位参数a,b,按照分位数算法步骤计算,得到不同维度样本数据的异常值内限[F 1,i, F u,i ]。以此为依据对数据进行划分,清洗异常数据。
数据划分公式为:
式中:Y l,i 表示第i维的异常数据集,Y n,i 表示第i维的正常数据集;x j 表示第j个异常数据,x k 表示第k个正常数据;F 1,i 表示数据异常值内限中的下限,F u,i 表示数据异常值内限的上限;S 1,S 2分别表示异常数据和正常数据的个数;i为维度;R为实数集。
对于光伏输出功率与辐照度的数据集按照上述公式进行清洗,实现二步分位数算法的第一步清洗。
⑷二步分位数算法的第二步:按照温度和功率数据关系进行清洗。具体过程如下:
先索引第一步清洗后的数据中温度与光伏输出功率数据;然后设置分位数参数,按分位数算法获得样本数据的异常值内限,并以此为依据对数据进行划分,最后将数据异常值内限之外的数据进行清洗。
⑸清洗结果整理:
将第二步清洗后的数据进行重新整理,按照辐照度、温度以及功率三种参数种类对结果数据进行重构,使正常数据的分布趋势符合光伏阵列多维理论电气参数关系即可。
图2为不同光伏电站运行数据清洗的结果,其中灰色数据点为识别的正常数据,黑色为识别的异常数据点。由图2可以看出,正常数据的分布情况趋势符合光伏发电理论出力特性,因此,本发明方法不仅能有效识别不同条件下的异常数据,还能将底部堆叠的异常值准确识别,说明本发明方法对于光伏电站数据清洗具有有效性和可行性。
下面对传统单一四分位数方法和本发明、的二步分位数方法对异常数据清洗能力进行对比,两种方法的分位数参数设置一致,均为a=0.2,b=0.8。设计了两种不同的场景,包含常规的光伏电站运行数据与拟合的光伏电站输出功率异常数据,结果如表2所示:
由表2可知,本发明数据清洗方法能够将新添加的功率异常数据给全部识别出来,而单一分位数算法无法将其识别出来。因此,除了分位数算法本身由于统计原理造成的少量异常数据错误识别,采用本发明方法后异常数据错误识别率为4.94%,比单一四分位数方法要小许多,更具优势。
Claims (5)
1.一种光伏电站异常数据清洗的方法,包括以下步骤:
⑴选取原始数据:
收集某个光伏电站的历史运行数据以及历史气象数据为原始数据样本,并确认样本分布情况;
⑵建立数据索引:
对原始数据样本中的环境数据以及光伏电站历史功率数据进行标签,按照时间轴进行数据对齐;
⑶二步分位数算法的第一步:按照辐照度和功率数据关系进行清洗;
⑷二步分位数算法的第二步:按照温度和功率数据关系进行清洗;
⑸清洗结果整理:
将第二步清洗后的数据进行重新整理,按照辐照度、温度以及功率三种参数种类对结果数据进行重构,使正常数据的分布趋势符合光伏阵列多维理论电气参数关系即可。
2.如权利要求1所述的一种光伏电站异常数据清洗的方法,其特征在于:所述步骤⑵中环境数据是指辐照度数据和温度数据。
3.如权利要求1所述的一种光伏电站异常数据清洗的方法,其特征在于:所述步骤⑶中按照辐照度和功率数据关系进行清洗的方法是指先索引原始数据中的辐照度与光伏输出功率数据,并清洗辐照度零值点数据;然后设置分位数参数,按分位数算法获得样本数据的异常值内限,并以此为依据对数据进行划分,最后将数据异常值内限之外的数据进行清洗。
4.如权利要求1所述的一种光伏电站异常数据清洗的方法,其特征在于:所述步骤⑷中按照温度和功率数据关系进行清洗的方法是指先索引第一步清洗后的数据中温度与光伏输出功率数据;然后设置分位数参数,按分位数算法获得样本数据的异常值内限,并以此为依据对数据进行划分,最后将数据异常值内限之外的数据进行清洗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111354756.2A CN114090559A (zh) | 2021-11-16 | 2021-11-16 | 一种光伏电站异常数据清洗的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111354756.2A CN114090559A (zh) | 2021-11-16 | 2021-11-16 | 一种光伏电站异常数据清洗的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114090559A true CN114090559A (zh) | 2022-02-25 |
Family
ID=80300911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111354756.2A Pending CN114090559A (zh) | 2021-11-16 | 2021-11-16 | 一种光伏电站异常数据清洗的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114090559A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680524A (zh) * | 2023-08-01 | 2023-09-01 | 查维斯机械制造(北京)有限公司 | 一种用于灼烫式手持打码器的温度数据监测方法 |
-
2021
- 2021-11-16 CN CN202111354756.2A patent/CN114090559A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680524A (zh) * | 2023-08-01 | 2023-09-01 | 查维斯机械制造(北京)有限公司 | 一种用于灼烫式手持打码器的温度数据监测方法 |
CN116680524B (zh) * | 2023-08-01 | 2023-10-20 | 查维斯机械制造(北京)有限公司 | 一种用于灼烫式手持打码器的温度数据监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109873610B (zh) | 基于iv特性和深度残差网络的光伏阵列故障诊断方法 | |
CN106779223B (zh) | 一种光伏系统发电功率实时预测方法及装置 | |
CN111428201B (zh) | 基于经验模态分解和前馈神经网络对时序数据的预测方法 | |
CN110515931B (zh) | 一种基于随机森林算法的电容型设备缺陷预测方法 | |
CN111008726B (zh) | 一种电力负荷预测中类图片转换方法 | |
CN115115090A (zh) | 一种基于改进lstm-cnn的风功率短期预测方法 | |
CN114090559A (zh) | 一种光伏电站异常数据清洗的方法 | |
CN106570790A (zh) | 一种计及风速数据分段特性的风电场出力数据修复方法 | |
CN115293372A (zh) | 基于多维度、多参量数值分析的光伏组串故障诊断方法 | |
CN115877068A (zh) | 基于深度学习的区域电网的电压暂降传播轨迹识别方法 | |
CN111651448B (zh) | 一种基于降噪差分进化的低压拓扑识别方法 | |
CN113379116A (zh) | 基于聚类和卷积神经网络的台区线损预测方法 | |
CN112329971A (zh) | 一种输变电工程投资决策模型的建模方法 | |
CN116522111A (zh) | 远程停复电故障自动诊断方法 | |
CN110389949A (zh) | 一种光伏阵列数据清洗方法 | |
CN111126645A (zh) | 一种基于数据挖掘技术和改进支持向量机的风电预测算法 | |
CN115809725A (zh) | 一种多因素短期电量预测方法及装置 | |
CN113554203B (zh) | 基于高维网格化和LightGBM的风电预测方法及装置 | |
CN115115139A (zh) | 一种风电功率的实时预测方法 | |
CN113190728A (zh) | 一种基于聚类优化的油浸式变压器故障诊断方法 | |
Liu et al. | Hierarchical Identification Method of Household-Transformer Relationship based on Adaptive Piecewise Aggregation Approximation | |
Zhang et al. | Research on Stepwise Clustering and Fitting Method for Wind Power Based on Discrete Wavelet Transform | |
CN114969017B (zh) | 风功率数据清洗方法、清洗装置及预测方法 | |
Huang et al. | Anomaly Recognition and Correction Algorithm for Big Data of Distribution Network Load | |
CN115879629A (zh) | 基于深度学习的超短期光伏功率预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |