CN105488736A - 一种用于光伏电站数据采集系统的数据处理方法 - Google Patents
一种用于光伏电站数据采集系统的数据处理方法 Download PDFInfo
- Publication number
- CN105488736A CN105488736A CN201510869111.0A CN201510869111A CN105488736A CN 105488736 A CN105488736 A CN 105488736A CN 201510869111 A CN201510869111 A CN 201510869111A CN 105488736 A CN105488736 A CN 105488736A
- Authority
- CN
- China
- Prior art keywords
- data
- variable
- missing
- missing values
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000002159 abnormal effect Effects 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012937 correction Methods 0.000 claims description 7
- 230000008034 disappearance Effects 0.000 claims description 7
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 238000011161 development Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- 238000012352 Spearman correlation analysis Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种用于光伏电站数据采集系统的数据处理方法,其特征在于,首先对数据做一个细分,将数据分为正常数据和异常数据,通过对异常数据的分析和校验,将异常数据分为人为原因导致和系统原因导致;人为原因导致的,用判断域值的方法修正,不能修正的直接删除;系统原因导致的数据异常,用变量联合匹配的方法修正,不能修正的直接删除;接着合并正常数据和修正数据,然后处理缺失值,根据与不完全变量的关系,将缺失值分为随机和非随机,再分别运用热卡填充法、多项式填补或均值填补方法进行缺失值填补。该方法不仅能提高数据质量,而且还能提高数据的二次利用价值。
Description
技术领域
本发明涉及一种用于光伏电站数据采集系统的数据处理方法,属于光伏电站数据处理技术领域。
背景技术
随着人类社会的不断进步,人们需要消耗大量的能源来满足自身的需要,而太阳能是一个清洁型和安全型的可再生资源,因此,世界上很多国家都掀起了开发和利用太阳能的热潮。我国也不例外,针对此项发展,政府制定了一系列扶持光伏发电发展的优惠政策,推动我国光伏事业的发展。
目前,由于光伏行业数据采集系统普遍只重视数据实时性和高效性,却不重视数据的质量,也没有对数据进行合理的筛选与处理;所以,这直接影响到了数据库中存储数据的速度和质量,也对数据二次价值开发产生了很大的影响。因此本发明针对光伏电站调研数据的特征和数据中出现的问题,制定一种用于光伏电站数据采集系统的数据处理方法。
发明内容
本发明的目的是:为克服现有技术的不足,本发明提供一种用于光伏电站数据采集系统的数据处理方法,针对光伏电站数据采集系统采集数据的质量低,数据不完善等缺点,对数据系统做了一个数据处理模型,采用此模型不仅能提高数据质量,而且还能提高数据的二次利用价值。
本发明所采用的技术方案是:一种用于光伏电站数据采集系统的数据处理方法,其特征在于,包括以下步骤:
(1)在保证数据的完整性下,将数据分为正常数据和异常数据,通过对异常数据进行分析和校验,把异常数据分为人为原因和系统原因;
A:人为原因用判断域值的方法修正,即根据日常规定或者经验来进行修正;若不能修正,则直接删除;
B:系统原因用变量联合匹配的方法修正,即找到与异常数据变量相关联的变量进行修正;若不能修正,则直接删除;
(2)合并正常数据和修正数据,然后处理缺失值,根据与不完全变量的关系,将缺失值分为随机缺失和非随机缺失;
A:随机缺失是数据的缺失仅仅依赖于完全变量的缺失值,用热卡填充法在完全数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充;
B:非随机缺失是不完全变量中数据的缺失依赖于不完全变量本身,非随机缺失变量分为字符型和数值型;字符型变量采用多项式填补法来进行填补,数值型变量采用均值填补法进行填补;
(3)通过以上步骤即完成光伏电站数据采集系统的数据处理。
本发明的有益效果是:本发明提供的光伏电站数据采集系统的数据处理方法:1、利用通俗易懂的方法,对数据进行数据处理、数据修正和缺失值填充;2、使用此方法能提高数据质量,增加数据的利用价值;3、技术人员可根据数据的存储情况来排除设备故障,第一时间与维修人员联系,增加工作效率,减少企业的损失。
附图说明
图1为本发明的用于光伏电站数据采集系统的数据处理方法流程图。
具体实施方式
为了更好地理解本发明,下面结合实施例进一步阐明本发明的内容,但本发明的内容不仅仅局限于下面的实施例。本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样在本申请所列权利要求书限定范围之内。
如图1所示,本发明实施例提供的一种用于光伏电站数据采集系统的数据处理方法,包括如下步骤:
(1)在保证数据的完整性下,将数据分为正常数据和异常数据,通过对异常数据进行分析和校验,将异常数据分为人为原因和系统原因。
A:在把原数据录入软件时,日志提示在某行某变量数据错误,导致数据无法录入软件,在保证数据的完整性下,检查出数据中有多个小数点、小数点是逗号、数据后面有小数点等情况;将这种由于人的主观失误、历史局限等造成的数据异常,称为人为原因。用判断域值的方法修正,即根据日常规定或者经验来进行修正,若不能修正,则直接删除。
B:对数据做描述性统计分析和频数分析,了解数据的最大值、最小值、均值、分位数和频数情况;在频数分析时,出现天气观测有“0”字样;将这种由于数据存储失败、存储器损坏或者其他原因导致的数据异常叫系统原因,用变量联合匹配的方法修正,即找到与异常数据变量相关联的变量进行修正,若不能修正,则直接删除。
(2)处理缺失值,把缺失的数据分为随机缺失和非随机缺失。
A:随机缺失是数据的缺失仅仅依赖于完全变量的缺失值。用热卡填充法在完全数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。即使用相关系数矩阵来确定哪个变量(如A变量)与缺失值所在变量(B变量)最相关。然后把所有个案按A的取值大小进行排序。那么变量B的缺失值就可以用排在缺失值前的那个个案的数据来代替了。
B:非随机缺失是不完全变量中数据的缺失依赖于不完全变量本身。因非随机缺失值只依赖变量本身,在进行填充时,只能借助变量自身的特性;在填充之前,将非随机缺失变量分为字符型和数值型;对字符型变量的缺失值填充可以使用原变量的分布来解决。由于字符型变量的分布一定是离散分布。所以,首先要验证该变量可能是什么离散分布;但是为了简便起见,我们只假定需要填充的变量是服从多项分布的。有了这样一个前提之后,在接下来的填补中,就必须要求填补后的变量分布和填补前的变量分布是相同的,否则就失去了假定的意义。对数字型变量采用均值填补法。处理步骤如下:
B1、确定非随机缺失变量;
B2、把变量分组,一组是字符型,另外一组是数值型(转到B4);
B3、用FREQ过程步求出每个指标出现的频数,即能看到变量存在缺失值的情况,并且能了解到其它的一些信息;
B4、对出现缺失值的变量用SAS程序填补,即可完成;
B5、用SUMMARY过程步求出每个变量的均值;
B6、再把均值对应填补上即可。
下面以某光伏电站为例详细描述本发明的实施方案,实施的流程和方法如附图1。
(1)该电站数据出现异常数据类型为:1、数据文件为空;2、数据乱码;3、数据异常;针对此数据,首先是处理空文件和乱码数据,然后修正异常数据.
A:在把原数据录入软件时,日志提示在35580行开始变量数据错误且风速数据文件是空,导致数据无法录入软件,返回原数据,发现数据乱码,风速数据文件是空集;则用软件删除乱码数据和空文件夹。其它的异常数据处理方法一致,这里不一一举例。
B:对数据进行描述性统计分析,发现故障状态观测是0,在修正时,可以查看运行日志和日发电量数据,若运行日志记录故障或日发电量数据异常(确定不是由天气异常原因引起的),则故障状态是1,但此电站未给运行日志数据,因此,只能修正一部分发电系统出现故障的数据,其他的则认为系统未出现故障。
(2)缺失值处理。
A:随机缺失值,通过SPEARMAN相关性分析发现AC相电流和电流变量有较强的相关性,并且AC相电流和电流变量特性相同,因此,可以利用热卡填充法对AC相电流和电流变量的缺失值进行填充。首先对AC相电流和电流变量按时间进行排序,然后AC相电流的缺失值用相同时间的电流值来代替即可。其他的随机缺失值处理方法一致,这里不一一举例。
B:非随机缺失值处理,用SAS软件实现;步骤如下:
B1、确定非随机缺失变量;
B2、把变量分组,一组是字符型,另外一组是数值型(转到B4);
B3、用FREQ过程步求出每个指标出现的频数,即能看到变量存在缺失值的情况,并且能了解到其它的一些信息;
B4、对出现缺失值的变量用SAS程序填补,即可完成;
B5、用SUMMARY过程步求出每个变量的均值;
B6、再把均值对应填补上即可。
此方法修正了75%的异常数据,其中,人为原因占33.2%,系统原因占41.8%;填补了33.4%的数据,为数据二次价值开发提供了很大的帮助。且技术人员也可根据数据的存储情况来排除设备故障,第一时间与维修人员联系,保证数据库中数据的质量,增加工作效率,减少企业的损失。
本方法的主要发明点在于:1.本方法针对不同变量的特性,制定填补缺失值的方法,既保留了变量的特性,又充分利用了数据资源,在一定程度上保证了数据的完整性;2.本方法删除无法进行修正的异常数据,是便于正常数据与异常数据的区分,既节省数据库的存储空间,又节省了数据分析人员的数据清洗时间。
以上仅为本发明的实施例而已,并不用于限制本发明,因此,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (1)
1.一种用于光伏电站数据采集系统的数据处理方法,其特征在于,包括以下步骤:
(1)在保证数据的完整性下,将数据分为正常数据和异常数据,通过对异常数据进行分析和校验,把异常数据分为人为原因和系统原因;
A:人为原因用判断域值的方法修正,即根据日常规定或者经验来进行修正;若不能修正,则直接删除;
B:系统原因用变量联合匹配的方法修正,即找到与异常数据变量相关联的变量进行修正;若不能修正,则直接删除;
(2)合并正常数据和修正数据,然后处理缺失值,根据与不完全变量的关系,将缺失值分为随机缺失和非随机缺失;
A:随机缺失是数据的缺失仅仅依赖于完全变量的缺失值,用热卡填充法在完全数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充;
B:非随机缺失是不完全变量中数据的缺失依赖于不完全变量本身,非随机缺失变量分为字符型和数值型;字符型变量采用多项式填补法来进行填补,数值型变量采用均值填补法进行填补;
(3)通过以上步骤即完成光伏电站数据采集系统的数据处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510869111.0A CN105488736A (zh) | 2015-12-02 | 2015-12-02 | 一种用于光伏电站数据采集系统的数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510869111.0A CN105488736A (zh) | 2015-12-02 | 2015-12-02 | 一种用于光伏电站数据采集系统的数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105488736A true CN105488736A (zh) | 2016-04-13 |
Family
ID=55675701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510869111.0A Pending CN105488736A (zh) | 2015-12-02 | 2015-12-02 | 一种用于光伏电站数据采集系统的数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105488736A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106155985A (zh) * | 2016-06-02 | 2016-11-23 | 重庆大学 | 一种基于相邻数据特征的数据缺失填充方法 |
CN106909490A (zh) * | 2017-02-28 | 2017-06-30 | 国网福建省电力有限公司 | 一种监测设备数据流评估和噪声消除方法 |
CN107634719A (zh) * | 2017-08-03 | 2018-01-26 | 华电电力科学研究院 | 集中式逆变器方案新型光伏组串在线故障诊断系统及方法 |
CN109564641A (zh) * | 2017-10-16 | 2019-04-02 | 深圳乐信软件技术有限公司 | 数据填补方法和装置 |
CN110428169A (zh) * | 2019-08-01 | 2019-11-08 | 南京信业能源科技有限公司 | 一种垃圾焚烧的指标采集及数据预警与预处理方法 |
CN111461409A (zh) * | 2020-03-10 | 2020-07-28 | 国网山西省电力公司经济技术研究院 | 一种中长期负荷数据的异常值处理方法 |
CN111723085A (zh) * | 2020-06-28 | 2020-09-29 | 山东建筑大学 | 公共建筑空调用电能耗数据清洗方法及系统 |
CN113468152A (zh) * | 2021-06-04 | 2021-10-01 | 国网上海市电力公司 | 高频用户用电数据清洗方法、系统、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440283A (zh) * | 2013-08-13 | 2013-12-11 | 江苏华大天益电力科技有限公司 | 一种测点数据的补缺系统及补缺方法 |
CN103514259A (zh) * | 2013-08-13 | 2014-01-15 | 江苏华大天益电力科技有限公司 | 一种基于数值关联性模型的异常数据探测及修正方法 |
-
2015
- 2015-12-02 CN CN201510869111.0A patent/CN105488736A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440283A (zh) * | 2013-08-13 | 2013-12-11 | 江苏华大天益电力科技有限公司 | 一种测点数据的补缺系统及补缺方法 |
CN103514259A (zh) * | 2013-08-13 | 2014-01-15 | 江苏华大天益电力科技有限公司 | 一种基于数值关联性模型的异常数据探测及修正方法 |
Non-Patent Citations (1)
Title |
---|
DRBKJ32042: "异常值处理", 《豆丁论文》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106155985A (zh) * | 2016-06-02 | 2016-11-23 | 重庆大学 | 一种基于相邻数据特征的数据缺失填充方法 |
CN106155985B (zh) * | 2016-06-02 | 2019-01-18 | 重庆大学 | 一种基于相邻数据特征的数据缺失填充方法 |
CN106909490A (zh) * | 2017-02-28 | 2017-06-30 | 国网福建省电力有限公司 | 一种监测设备数据流评估和噪声消除方法 |
CN106909490B (zh) * | 2017-02-28 | 2020-05-05 | 国网福建省电力有限公司 | 一种监测设备数据流评估和噪声消除方法 |
CN107634719A (zh) * | 2017-08-03 | 2018-01-26 | 华电电力科学研究院 | 集中式逆变器方案新型光伏组串在线故障诊断系统及方法 |
CN109564641A (zh) * | 2017-10-16 | 2019-04-02 | 深圳乐信软件技术有限公司 | 数据填补方法和装置 |
CN110428169A (zh) * | 2019-08-01 | 2019-11-08 | 南京信业能源科技有限公司 | 一种垃圾焚烧的指标采集及数据预警与预处理方法 |
CN111461409A (zh) * | 2020-03-10 | 2020-07-28 | 国网山西省电力公司经济技术研究院 | 一种中长期负荷数据的异常值处理方法 |
CN111723085A (zh) * | 2020-06-28 | 2020-09-29 | 山东建筑大学 | 公共建筑空调用电能耗数据清洗方法及系统 |
CN111723085B (zh) * | 2020-06-28 | 2023-06-23 | 山东建筑大学 | 公共建筑空调用电能耗数据清洗方法及系统 |
CN113468152A (zh) * | 2021-06-04 | 2021-10-01 | 国网上海市电力公司 | 高频用户用电数据清洗方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105488736A (zh) | 一种用于光伏电站数据采集系统的数据处理方法 | |
CN103970851A (zh) | 海量凭证数据直接出具大型企业集团总部财务报表的方法 | |
CN104091289A (zh) | 基于接线模式规则的大规模配电网n-1快速校验方法 | |
Tomporowski et al. | Destructiveness of profits and outlays associated with operation of offshore wind electric power plant. Part 1: Identification of a model and its components | |
CN109033507A (zh) | 一种考虑信息系统监视功能失效的电力系统可靠性评估方法 | |
CN107622360A (zh) | 一种综合考虑主客观因素的关键线路识别方法 | |
CN106709607A (zh) | 分布式光伏电站智能监控运维系统 | |
CN103019207A (zh) | 一种节能减排实时监测系统 | |
CN105305488A (zh) | 一种考虑新能源并网对输电网利用率影响的评价方法 | |
CN112132464A (zh) | 一种生活垃圾焚烧发电厂生产过程精准控制系统及方法 | |
Bouzguenda et al. | Optimal placement of distributed generation in electric distribution networks | |
CN105512379A (zh) | 一种光伏电站逆变器综合评估方法 | |
CN108039728B (zh) | 提升电网清洁能源消纳能力的实时调度方法 | |
CN106130929A (zh) | 基于图论算法的互联网保险领域的业务报文自动处理方法和系统 | |
CN110865329B (zh) | 一种基于大数据自诊断的电能计量方法及系统 | |
CN111030124A (zh) | 一种考虑故障电压恢复特性的电网低压减载方法和装置 | |
CN105186494B (zh) | 电力网络分析系统及方法 | |
CN105354761A (zh) | 一种风电接入电网的安全与效能评估方法及系统 | |
CN108470247A (zh) | 基于关联规则分类的光伏电站经营辅助决策方法 | |
CN108563803A (zh) | 面向全球联网的电力格局构建方法 | |
CN109857590B (zh) | 一种电力调度中心的数据备份系统 | |
CN208474938U (zh) | Lng储罐的再利用装置 | |
Musa et al. | Markov chain availability and sensitivity analysis of solar water pumping system | |
CN103049813A (zh) | 一种节能减排监管信息系统 | |
CN112257973A (zh) | 一种基于大坝安全监测成果的水电站大坝安全管理成效积分动态计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160413 |