CN112783885A - 光伏出力数据异常值的剔除方法 - Google Patents
光伏出力数据异常值的剔除方法 Download PDFInfo
- Publication number
- CN112783885A CN112783885A CN202110124363.6A CN202110124363A CN112783885A CN 112783885 A CN112783885 A CN 112783885A CN 202110124363 A CN202110124363 A CN 202110124363A CN 112783885 A CN112783885 A CN 112783885A
- Authority
- CN
- China
- Prior art keywords
- photovoltaic output
- data
- index
- photovoltaic
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000009826 distribution Methods 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Water Supply & Treatment (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Photovoltaic Devices (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- General Health & Medical Sciences (AREA)
Abstract
本发明公开了一种光伏出力数据异常值的剔除方法。该方法包括:通过光伏实证平台在一定的时间范围内获得的数据,筛选影响光伏出力的关键性因素;然后根据这些因素,获得光伏出力的条件概率分布;之后运用核密度估计理论获取出力的连续概率分布,结合区间最小原则获得光伏出力的置信区间;最后,将置信区间外的数据视为异常数据,并分析异常类型。本发明通过获取样本内所有点光伏出力的置信区间,将区间外的数据视作异常数据进行排查。基于此,研究人员不必逐一排查异常数据,且可以快速定位到异常数据出现的地方,对异常数据类型做出进一步判断,从而达到节省人力和时间的目的。
Description
技术领域
本发明涉及光伏实证技术领域,尤其涉及一种光伏出力数据异常值的剔除方法。
背景技术
在实际工程应用中,由于设备故障、人为限电、通信故障以及光伏组件功率削减等多种原因,导致光伏功率数据存在异常数据比例较高的问题,极大地阻碍了科研人员对该类数据所蕴含信息的挖掘与深入分析,对电能质量、系统稳定性和可靠性都有负面影响。
因此,光伏发电出力数据异常值的剔除显得尤为关键。目前,针对此方面的研究尚未成熟,没有较为系统的分析方法,多数情况下要依靠人力手段对数据进行针对性的逐一排查,费时费力。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于出力数据和关键影响因素的一致性理论的光伏出力数据异常值剔除的分析方法。
本发明的目的是通过以下技术方案来实现的:一种光伏出力数据异常值的剔除方法,该方法步骤如下:
(1)筛选光伏出力关键性影响指标。对于不同地区,通过绘制单一指标与光伏出力的二维散点图并计算单一指标与光伏出力的相关系数,筛选出光伏出力的关键性影响指标。
(2)估计关键性指标和光伏出力的联合分布。基于核密度估计理论获取光伏出力和步骤(1)筛选出的关键性影响指标的联合概率密度,并计算光伏出力的条件概率密度。
(3)确定光伏出力的置信区间。根据光伏出力的条件概率密度计算光伏出力的置信区间,并采用区间最小原则对光伏出力置信区间做出限制,得到跨度最小的光伏出力在关键性影响指标下的置信区间;
(4)根据步骤(3)得到的光伏出力在关键性影响指标下的置信区间,将区间之外的数据点视作异常数据对其进行剔除。
其中,x表示单一指标,n是样本总量,xi是第i个数据样本关键性指标的值,是数据样本关键性指标的平均値,yi是第i个数据样本的光伏出力值,是数据样本光伏出力的平均値,是第i个样本通过拟合的回归曲线计算得到光伏出力的估计值,其中R称为拟合优度,其值越接近1,二者线性相关性越好。
进一步地,步骤(1)中,回归曲线仅能表示指标和光伏出力的一阶线性相关程度,因此通过计算二者的相关系数对二者的内在关联做进一步描述,相关系数的计算公式如下:
其中ρxy表示单一指标X与光伏出力Y的相关系数,Cov(X,Y)为单一指标与光伏出力的协方差,Var(X)为X的方差,Var(Y)为Y的方差。筛选相关系数大于阈值T的指标作为关键性影响指标。相关系数的阈值T可以根据当地实际情况选择。
进一步地,步骤(2)中,基于核密度估计计算联合概率密度公式如下:
分别表示针对关键性指标以及关键性指标与光伏出力联合估计得到的联合概率密度,,其中是筛选得到的关键性指标,xn表示第n个关键性指标,y代表光伏出力。表示第i个数据样本的关键性指标值,d表示关键性指标的维数。Φd()代表d维标准正太分布。n是样本总量。h表示窗口宽度,其值由下述公式确定。
h=1.05σn-1/5
其中,σ是样本的标准差。
光伏出力的条件概率密度由如下公式确定:
进一步地,步骤(3)中,跨度最小的光伏出力的置信区间由如下公式确认得到:
其中y1,y2是置信区间的上下限,1-α代表置信度,其值根据需要选取。
本发明的有益效果:本发明通过获取样本内所有点光伏出力的置信区间,将区间外的数据视作异常数据进行排查。基于此,研究人员不必逐一排查异常数据,且可以快速定位到异常数据出现的地方,对异常数据类型做出进一步判断,从而达到节省人力和时间的目的。
附图说明
图1为本申请提供的异常数据的分析方法的具体流程图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1所示,本发明提供的一种一种光伏出力数据异常值剔除的分析方法;
首先,根据所获取的原始光伏出力数据,筛选对影响光伏出力具有关键性影响的指标。原始光伏出力数据来自光伏电站的日常记录,依据光伏电站自身的能力,数据记录的时间尺度可以精确到时、分,记录的指标应包含总辐射度、组件温度、风速和风向、空气湿度和温度、降雨量等基本气象量。
结合相关系数的计算方法和表示意义,总结筛选决定性影响指标步骤如下:
(1)绘制基本指标和光伏出力的二维散点图,初步观测指标和光伏出力的相关性。
不同地区,影响光伏出力的主要影响存在一定差异,例如沿海地区和西北干旱地区光伏出力会受到风力条件和沙尘的影响。因此,针对不同地区的具体情况,需要筛选不同的关键性影响指标。针对不同地区筛选不同光伏出力的关键性指标可以是本发明剔除方法具有很好的地区适应性,且移植方法简单。
其中,x表示单一指标,n是样本总量,xi是第i个数据样本关键性指标的值,是数据样本关键性指标的平均値,yi是第i个数据样本的光伏出力值,是数据样本光伏出力的平均値,是第i个样本通过拟合的回归曲线计算得到光伏出力的估计值,其中R称为拟合优度,其值越接近1,二者线性相关性越好。
(2)回归曲线仅能表示指标和光伏出力的一阶线性相关程度。因此通过计算二者的相关系数对二者的内在关联做进一步描述。相关系数越接近1,越能说明该指标的关键性。根据如下公式计算指标和光伏出力两个统计量的相关系数。
其中ρxy表示单一指标X与光伏出力Y的相关系数,Cov(X,Y)为单一指标与光伏出力的协方差,Var(X)为X的方差,Var(Y)为Y的方差。筛选相关系数大于阈值T的指标作为关键性影响指标。相关系数的阈值T可以根据当地实际情况选择。
(3)筛选相关系数大于0.9的指标作为关键性影响指标。相关系数的阈值可以根据当地实际情况作出相应调整。为使该统计指标具有统计意义,两个统计量的数据量应尽可能多。
根据筛选的关键性指标,计算针对多变量影响条件下光伏出力数据的置信区间,置信区间确定方法如下:
(1)在确定了关键性影响指标后,为了剔除异常的光伏出力值,需要计算光伏出力的条件概率密度。因为数据点是离散的,所以直接带来计算,不能得到光伏出力的条件概率密度或者所得的结果不准确。本发明使用核密度估计理论能够较为准确用连续的联合分布密度去刻画离散的样本,且可以容易的拓展适用多变量的情况。根据如下公式对离散的统计量进行核密度估计,获取其概率密度分布。
h=1.05σ·n-1/5
σ是样本的标准差。
(2)同理,根据如下公式可以计算关键性指标的联合概率密度,关键性指标和光伏出力的联合概率密度,
分别表示针对关键性指标以及关键性指标与光伏出力联合估计得到的联合概率密度,其中是筛选得到的关键性指标,xn表示第n个关键性指标,y代表光伏出力。表示第i个数据样本的关键性指标值,d表示关键性指标的维数。Φd()代表d维标准正太分布。
(3)根据如下公式,计算光伏出力在这些关键性指标影响下的条件概率密度分布。
本发明方法通过核密度估计理论,利用连续的概率密度分布来近似刻画离散的样本,解决了离散样本无法获取条件概率分布的难题。
(4)在没有限制的条件下,可以得到多组光伏出力的置信区间。本发明方法结合区间最小原则,对光伏出力置信区间做出限制,计算光伏出力在这些关键性指标确定的情况下的置信区间,得到的置信区间的跨度将是最小的。根据如下公式,可以计算得到光伏出力的置信区间。
其中y1,y2是置信区间的上下限。1-α代表置信度,通常情况下其值为0.95,可以根据光伏电站的具体情况作出相应调整。使用区间最小原则获取的置信区间上下限插值最小,更符合实际情况。
上述步骤后,可以得到光伏出力在确定关键性指标下的置信区间,将区间之外的数据点视作异常数据对其进行剔除。本发明可以确定异常数据产生位置,分析异常数据产生原因的方法节省人力物力,所得结果可以有效的服务光伏电站后续研究。
由上述方案可知,本申请提供了一种基于光伏出力和关键性影响指标一致性原理的光伏出力异常数据的剔除方法。通过分析光伏电站提供的原始光伏出力数据,计算各指标与光伏出力的相关系数,筛选选影响光伏出力的关键性指标。然后根据这些指标和光伏出力的数据样本,分布计算其概率密度分布,联合概率密度分布,和光伏出力的联合概率密度分布。结合区间最小原则,获得在某一置信度下的光伏出力的置信区间,将区间外的数据视作异常数据进行排查。基于此,研究人员不必逐一排查异常数据,且可以快速定位到异常数据出现的地方,对异常数据类型做出进一步判断,从而达到节省时间的目的。该方法可以根据光伏电站所在的地理位置做出相应调整,使得该方法适用性得到增强。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (5)
1.一种光伏出力数据异常值的剔除方法,其特征在于:该方法步骤如下:
(1)筛选光伏出力关键性影响指标。对于不同地区,通过绘制单一指标与光伏出力的二维散点图并计算单一指标与光伏出力的相关系数,筛选出光伏出力的关键性影响指标。
(2)估计关键性指标和光伏出力的联合分布。基于核密度估计理论获取光伏出力和步骤(1)筛选出的关键性影响指标的联合概率密度,并计算光伏出力的条件概率密度。
(3)确定光伏出力的置信区间。根据光伏出力的条件概率密度计算光伏出力的置信区间,并采用区间最小原则对光伏出力置信区间做出限制,得到跨度最小的光伏出力在关键性影响指标下的置信区间;
(4)根据步骤(3)得到的光伏出力在关键性影响指标下的置信区间,将区间之外的数据点视作异常数据对其进行剔除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110124363.6A CN112783885A (zh) | 2021-01-29 | 2021-01-29 | 光伏出力数据异常值的剔除方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110124363.6A CN112783885A (zh) | 2021-01-29 | 2021-01-29 | 光伏出力数据异常值的剔除方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112783885A true CN112783885A (zh) | 2021-05-11 |
Family
ID=75759669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110124363.6A Pending CN112783885A (zh) | 2021-01-29 | 2021-01-29 | 光伏出力数据异常值的剔除方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112783885A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627322A (zh) * | 2021-08-09 | 2021-11-09 | 台州市污染防治工程技术中心 | 一种用于剔除异常点的方法、系统及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210052A (zh) * | 2019-04-23 | 2019-09-06 | 东北电力大学 | 光伏发电出力波动性分量统计特性分析的方法 |
-
2021
- 2021-01-29 CN CN202110124363.6A patent/CN112783885A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210052A (zh) * | 2019-04-23 | 2019-09-06 | 东北电力大学 | 光伏发电出力波动性分量统计特性分析的方法 |
Non-Patent Citations (1)
Title |
---|
WEIJIAN CHEN等: ""Identification of Abnormal PV Output Power Based on kernel Density Estimation and Consistency Method"", 《2020 IEEE 4TH CONFERENCE ON ENERGY INTERNET AND ENERGY SYSTEM INTEGRATION (EI2)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627322A (zh) * | 2021-08-09 | 2021-11-09 | 台州市污染防治工程技术中心 | 一种用于剔除异常点的方法、系统及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Haylock et al. | Trends in extreme rainfall indices for an updated high quality data set for Australia, 1910–1998 | |
Wang et al. | Trends and low frequency variability of extra-tropical cyclone activity in the ensemble of twentieth century reanalysis | |
CN113159714B (zh) | 一种面向电网的气象数据订正方法 | |
Solbrekke et al. | The 3 km Norwegian reanalysis (NORA3)–a validation of offshore wind resources in the North Sea and the Norwegian Sea | |
Ferrari et al. | Missing data imputation of climate datasets: Implications to modeling extreme drought events | |
CN105717556B (zh) | 一种基于大数据的自分型雷达估测降水方法 | |
CN109740195B (zh) | 一种基于气象站观测数据的极值台风风速概率分布模型及设计台风风速的评估方法 | |
CN117932501B (zh) | 一种电能表运行状态管理方法和系统 | |
CN112347652B (zh) | 基于水文气象地区线性矩频率分析的暴雨高风险区划方法 | |
CN116910041B (zh) | 一种基于尺度分析的遥感降水产品的逐日订正方法 | |
CN116432032A (zh) | 基于多源数据和机器学习的气象数据异常事件识别方法 | |
Kyselý et al. | Formation of homogeneous regions for regional frequency analysis of extreme precipitation events in the Czech Republic | |
CN115983511A (zh) | 基于改进统计降尺度方法的降水预估方法和系统 | |
CN113742929B (zh) | 一种针对格点气象实况的数据质量评价方法 | |
CN112783885A (zh) | 光伏出力数据异常值的剔除方法 | |
CN114564487A (zh) | 预报预测相结合的气象栅格数据更新方法 | |
Deline et al. | PV fleet performance data initiative (March 2020 methodology report) | |
CN116756505B (zh) | 一种基于大数据的光伏设备智能管理系统及方法 | |
Pasaribu et al. | Rainfall forecast of merauke using autoregressive integrated moving average model | |
CN113157684A (zh) | 一种水利海量数据的查错方法 | |
CN117200223A (zh) | 日前电力负荷预测方法和装置 | |
Odon et al. | Evaluation of reanalyses over British Columbia. Part I: Daily and extreme 2-m temperature | |
CN117091802B (zh) | 基于实测数据的风速湍流模型的标定方法 | |
CN118091799B (zh) | 多模式集成预报方法、系统、设备和存储介质及程序产品 | |
Pomeyie et al. | Comparing Extreme Value Estimation Techniques for Short-Term Snow Accumulations. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210511 |
|
RJ01 | Rejection of invention patent application after publication |