CN111949937A - 一种基于链式方程的分布式光伏数据多重插补方法 - Google Patents

一种基于链式方程的分布式光伏数据多重插补方法 Download PDF

Info

Publication number
CN111949937A
CN111949937A CN202010690310.6A CN202010690310A CN111949937A CN 111949937 A CN111949937 A CN 111949937A CN 202010690310 A CN202010690310 A CN 202010690310A CN 111949937 A CN111949937 A CN 111949937A
Authority
CN
China
Prior art keywords
interpolation
distributed photovoltaic
data
value
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010690310.6A
Other languages
English (en)
Inventor
燕锋
项博鸿
夏玮玮
沈连丰
胡静
宋铁成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010690310.6A priority Critical patent/CN111949937A/zh
Publication of CN111949937A publication Critical patent/CN111949937A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于链式方程的分布式光伏数据多重插补方法,步骤:将带有缺失数据的分布式光伏数据代入插补过程,采用基于链式方程的插补方法得到多个不同的分布式光伏插补数据集,插补方法中的回归模型采用贝叶斯回归模型;对每一个分布式光伏插补数据集的统计结果进行分析,如果分析结果满足设定的要求则进行下一步;若不能满足设定的要求,则需调整回归模型或插补次数,直至分析结果满足设定的要求;最后综合所有分布式光伏插补数据集得到最终的插补结果,并将此结果作为最终的分布式光伏数据值。本发明使用链式方程的插补方法作为多重插补结构中的插补步骤,从而改善传统多重插补算法的误差。

Description

一种基于链式方程的分布式光伏数据多重插补方法
技术领域
本发明属于分布式光伏领域,特别设计一种分布式光伏数据多重插补方法。
背景技术
随着传感器和智能分布式光伏的普及,越来越多的智能化应用比如智能故障检测系统应运而生,但是智能系统的运用必须建立在数据的采集和处理技术之上,而传感器采集数据的过程中往往会因为天气、设备等原因导致数据缺失的问题,缺失的数据必然会导致后期对数据处理产生不利的影响。因此对缺失数据的处理是对后期数据处理十分重要和必须的步骤。
对缺失数据的插补方法主要分为单变量插补和多变量插补。简单插补认为缺失值是某个常量,而多重插补认为缺失值是符合某种概率分布的变量。因此对于多重插补来说,插补结果能将变量的随机性体现出来,多变量插补往往能得到比单变量插补更精确的结果。
发明内容
为了解决上述背景技术提到的技术问题,本发明提出了一种基于链式方程的分布式光伏数据多重插补方法。
为了实现上述技术目的,本发明的技术方案为:
一种基于链式方程的分布式光伏数据多重插补方法,包括以下步骤:
(1)将带有缺失数据的分布式光伏数据代入插补过程,采用基于链式方程的插补方法得到多个不同的分布式光伏插补数据集,插补方法中的回归模型采用贝叶斯回归模型;
(2)对每一个分布式光伏插补数据集的统计结果进行分析,如果分析结果满足设定的要求则进行下一步;若不能满足设定的要求,则需调整回归模型或插补次数并返回步骤(1),直至分析结果满足设定的要求;
(3)综合所有分布式光伏插补数据集得到最终的插补结果,并将此结果作为最终的分布式光伏数据值。
进一步地,步骤(1)的具体过程如下:
(1-1)设分布式光伏传感器采集到的数据是带有缺失数据的数据集矩阵X;
(1-2)对每一个缺失值填充初始的插补值;
(1-3)对矩阵X的特征按照缺失率进行排序;
(1-4)开始迭代,先取缺失率最小的特征S,将矩阵X分成4部分:特征S中有缺失部分定义为y(s)mis,特征S中无缺失部分定义为y(s)obs,除特征S以外的所有变量中对应S特征有缺失索引的部分定义为X(s)mis,除特征S以外的所有变量中对应S特征无缺失索引的部分定义为X(s)obs;
(1-5)通过贝叶斯回归模型来拟合y(s)obs与X(s)obs,然后预测X(s)mis对应的y(s)mis;
(1-6)将预测值y(s)mis更新至矩阵X中,接着取第二小缺失率的特征S,循环所有有缺失值的特征S,并将贝叶斯回归模型的预测值填充至矩阵X中;
(1-7)将更新后的矩阵X与初始的矩阵X做比较,判断收敛函数的收敛值是否满足设定的阈值,如果不满足则返回步骤(1-4)开始下一次迭代,直至收敛值满足设定的阈值或者迭代次数达到设定的最大迭代次数。
进一步地,在步骤(1-2)中,采用原数据集的均值或者中位数作为初始的插补值。
进一步地,在步骤(2)中,采用基于复杂抽样条件下的ologit回归分析方法对每一个分布式光伏插补数据集进行分析。
进一步地,在步骤(3)中,对所有分布式光伏插补数据集取平均值得到最终的插补结果。
采用上述技术方案带来的有益效果:
本发明是基于多重插补框架下的一种改进的链式方程插补方法,与传统的多重插补不同的是使用链式方程的插补方法作为多重插补结构中的插补步骤,从而改善传统插补算法的误差。
附图说明
图1是本发明多重插补的框架图;
图2是本发明的方法流程图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
本发明设计了一种基于链式方程的分布式光伏数据多重插补方法,如图1-2所示,步骤如下:
步骤1:将带有缺失数据的分布式光伏数据代入插补过程,采用基于链式方程的插补方法得到m个不同的分布式光伏插补数据集,插补方法中的回归模型采用贝叶斯回归模型;
步骤2:对每一个分布式光伏插补数据集的统计结果进行分析,如果分析结果满足设定的要求则进行下一步;若不能满足设定的要求,则需调整回归模型或插补次数并返回步骤1,直至分析结果满足设定的要求;
步骤3:综合所有分布式光伏插补数据集得到最终的插补结果,并将此结果作为最终的分布式光伏数据值。
在本实施例中,优选地,上述步骤1采用如下优选方案实现:
1-1、设分布式光伏传感器采集到的数据是带有缺失数据的数据集矩阵X;
1-2、对每一个缺失值填充初始的插补值;
1-3、对矩阵X的特征按照缺失率进行排序;
1-4、开始迭代,先取缺失率最小的特征S(即矩阵X的列),将矩阵X分成4部分:特征S中有缺失部分定义为y(s)mis,特征S中无缺失部分定义为y(s)obs,除特征S以外的所有变量中对应S特征有缺失索引的部分定义为X(s)mis,除特征S以外的所有变量中对应S特征无缺失索引的部分定义为X(s)obs;
1-5、通过贝叶斯回归模型来拟合y(s)obs与X(s)obs,然后预测X(s)mis对应的y(s)mis;
1-6、将预测值y(s)mis更新至矩阵X中,接着取第二小缺失率的特征S,循环所有有缺失值的特征S,并将贝叶斯回归模型的预测值填充至矩阵X中;
1-7、将更新后的矩阵X与初始的矩阵X做比较,判断收敛函数的收敛值是否满足设定的阈值,如果不满足则返回步骤1-4开始下一次迭代,直至收敛值满足设定的阈值或者迭代次数达到设定的最大迭代次数γ。
在本实施例中,优选地,上述步骤1-2中,采用原数据集的均值或者中位数作为初始的插补值。
在本实施例中,优选地,在上述步骤2中,采用基于复杂抽样条件下的ologit回归分析方法对每一个分布式光伏插补数据集进行分析。
在本实施例中,优选地,在上述步骤3中,对所有分布式光伏插补数据集取平均值得到最终的插补结果。
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (5)

1.一种基于链式方程的分布式光伏数据多重插补方法,其特征在于,包括以下步骤:
(1)将带有缺失数据的分布式光伏数据代入插补过程,采用基于链式方程的插补方法得到多个不同的分布式光伏插补数据集,插补方法中的回归模型采用贝叶斯回归模型;
(2)对每一个分布式光伏插补数据集的统计结果进行分析,如果分析结果满足设定的要求则进行下一步;若不能满足设定的要求,则需调整回归模型或插补次数并返回步骤(1),直至分析结果满足设定的要求;
(3)综合所有分布式光伏插补数据集得到最终的插补结果,并将此结果作为最终的分布式光伏数据值。
2.根据权利要求1所述基于链式方程的分布式光伏数据多重插补方法,其特征在于,步骤(1)的具体过程如下:
(1-1)设分布式光伏传感器采集到的数据是带有缺失数据的数据集矩阵X;
(1-2)对每一个缺失值填充初始的插补值;
(1-3)对矩阵X的特征按照缺失率进行排序;
(1-4)开始迭代,先取缺失率最小的特征S,将矩阵X分成4部分:特征S中有缺失部分定义为y(s)mis,特征S中无缺失部分定义为y(s)obs,除特征S以外的所有变量中对应S特征有缺失索引的部分定义为X(s)mis,除特征S以外的所有变量中对应S特征无缺失索引的部分定义为X(s)obs;
(1-5)通过贝叶斯回归模型来拟合y(s)obs与X(s)obs,然后预测X(s)mis对应的y(s)mis;
(1-6)将预测值y(s)mis更新至矩阵X中,接着取第二小缺失率的特征S,循环所有有缺失值的特征S,并将贝叶斯回归模型的预测值填充至矩阵X中;
(1-7)将更新后的矩阵X与初始的矩阵X做比较,判断收敛函数的收敛值是否满足设定的阈值,如果不满足则返回步骤(1-4)开始下一次迭代,直至收敛值满足设定的阈值或者迭代次数达到设定的最大迭代次数。
3.根据权利要求2所述基于链式方程的分布式光伏数据多重插补方法,其特征在于,在步骤(1-2)中,采用原数据集的均值或者中位数作为初始的插补值。
4.根据权利要求2所述基于链式方程的分布式光伏数据多重插补方法,其特征在于,在步骤(2)中,采用基于复杂抽样条件下的ologit回归分析方法对每一个分布式光伏插补数据集进行分析。
5.根据权利要求2所述基于链式方程的分布式光伏数据多重插补方法,其特征在于,在步骤(3)中,对所有分布式光伏插补数据集取平均值得到最终的插补结果。
CN202010690310.6A 2020-07-17 2020-07-17 一种基于链式方程的分布式光伏数据多重插补方法 Pending CN111949937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010690310.6A CN111949937A (zh) 2020-07-17 2020-07-17 一种基于链式方程的分布式光伏数据多重插补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010690310.6A CN111949937A (zh) 2020-07-17 2020-07-17 一种基于链式方程的分布式光伏数据多重插补方法

Publications (1)

Publication Number Publication Date
CN111949937A true CN111949937A (zh) 2020-11-17

Family

ID=73340062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010690310.6A Pending CN111949937A (zh) 2020-07-17 2020-07-17 一种基于链式方程的分布式光伏数据多重插补方法

Country Status (1)

Country Link
CN (1) CN111949937A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837739A (zh) * 2021-01-29 2021-05-25 西北大学 基于自编码器与蒙特卡洛树的层次化特征系统发育模型
CN114420298A (zh) * 2022-01-27 2022-04-29 首都医科大学附属北京天坛医院 一种多阶段的急性缺血性卒中血管内治疗无效再通预测系统、设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130226838A1 (en) * 2012-02-23 2013-08-29 International Business Machines Corporation Missing value imputation for predictive models
CN105117988A (zh) * 2015-10-14 2015-12-02 国家电网公司 一种电力系统中缺失数据插补的方法
CN106384298A (zh) * 2016-09-19 2017-02-08 合肥工业大学 一种基于两阶段插补模型的智能用电缺失数据修正方法
US20170372224A1 (en) * 2016-06-28 2017-12-28 General Electric Company Deep learning for imputation of industrial multivariate time-series

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130226838A1 (en) * 2012-02-23 2013-08-29 International Business Machines Corporation Missing value imputation for predictive models
CN105117988A (zh) * 2015-10-14 2015-12-02 国家电网公司 一种电力系统中缺失数据插补的方法
US20170372224A1 (en) * 2016-06-28 2017-12-28 General Electric Company Deep learning for imputation of industrial multivariate time-series
CN106384298A (zh) * 2016-09-19 2017-02-08 合肥工业大学 一种基于两阶段插补模型的智能用电缺失数据修正方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
BOHONG XIANG,等: "An Improved Multiple Imputation Method Based on Chained Equations for Distributed Photovoltaic Systems", 2020 IEEE 6TH INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS, 31 December 2020 (2020-12-31), pages 2001 - 2005 *
乔丽华,等: "缺失数据的多重插补方法", 统计教育, no. 12, 10 December 2006 (2006-12-10), pages 4 - 7 *
刘凤芹;: "基于链式方程的收入变量缺失值的多重插补", 统计研究, vol. 26, no. 1, 15 January 2009 (2009-01-15), pages 71 - 77 *
张伟,等: "基于链式方程填补的前列腺癌logistic判别分析", 华西医学, vol. 28, no. 2, 6 February 2013 (2013-02-06), pages 200 - 203 *
张彪,等: "完全随机缺失条件下连续型随机变量数据缺失插补方法的比较研究", 中国卫生统计, vol. 32, no. 04, 25 August 2015 (2015-08-25), pages 605 - 612 *
梁怡,等: "缺失数据常见插补调整方法的比较", 内蒙古科技与经济, no. 23, 15 December 2013 (2013-12-15), pages 19 - 20 *
谢桃枫,等: "基于SAS对缺失数据的处理――以新药试验为例", 内蒙古大学学报(自然科学版), vol. 48, no. 1, 15 January 2017 (2017-01-15), pages 47 - 54 *
郭超,等: "工业过程数据中缺失值处理方法的研究", 计算机工程与设计, vol. 31, no. 6, 28 March 2010 (2010-03-28), pages 1351 - 1354 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837739A (zh) * 2021-01-29 2021-05-25 西北大学 基于自编码器与蒙特卡洛树的层次化特征系统发育模型
CN112837739B (zh) * 2021-01-29 2022-12-02 西北大学 基于自编码器与蒙特卡洛树的层次化特征系统发育模型
CN114420298A (zh) * 2022-01-27 2022-04-29 首都医科大学附属北京天坛医院 一种多阶段的急性缺血性卒中血管内治疗无效再通预测系统、设备
CN114420298B (zh) * 2022-01-27 2023-08-25 首都医科大学附属北京天坛医院 一种多阶段的急性缺血性卒中血管内治疗无效再通预测系统、设备

Similar Documents

Publication Publication Date Title
CN109308522B (zh) 一种基于循环神经网络的gis故障预测方法
CN115577275A (zh) 一种基于lof和孤立森林的时序数据异常监测系统及方法
CN111680820B (zh) 分布式光伏电站故障诊断方法和装置
CN106548270B (zh) 一种光伏电站功率异常数据辨识方法及装置
CN111949937A (zh) 一种基于链式方程的分布式光伏数据多重插补方法
CN105825040A (zh) 短期电力负荷预测方法
CN111638707B (zh) 基于som聚类和mpca的间歇过程故障监测方法
CN111008726B (zh) 一种电力负荷预测中类图片转换方法
CN112363896A (zh) 日志异常检测系统
CN114861788A (zh) 一种基于dbscan聚类的负荷异常检测方法及系统
CN109784562B (zh) 一种基于大数据时空聚类的智慧电网电力负荷预测方法
CN114694379B (zh) 一种基于自适应动态图卷积的交通流预测方法及系统
CN115115090A (zh) 一种基于改进lstm-cnn的风功率短期预测方法
CN114124734B (zh) 一种基于GCN-Transformer集成模型的网络流量预测方法
CN112765894B (zh) 一种基于k-lstm的铝电解槽状态预测方法
CN117668743A (zh) 一种关联时空关系的时序数据预测方法
CN111984514A (zh) 基于Prophet-bLSTM-DTW的日志异常检测方法
CN108134687B (zh) 一种基于马尔可夫链的灰色模型局域网峰值流量预测方法
CN117009900A (zh) 一种基于图神经网络的物联网信号异常检测方法和系统
CN111797979A (zh) 基于lstm模型的振动传递系统
CN113933915B (zh) 一种基于时空扰动信息交互集成嵌套的短临外推预报方法
CN116542701A (zh) 一种基于cnn-lstm组合模型的碳价预测方法及系统
CN114648133A (zh) 一种基于梯度提升树算法的矿用卡车发动机缸温预警方法
CN113128685B (zh) 基于神经网络的自然选择分类和群体规模变化分析系统
CN112596391B (zh) 一种基于数据驱动的深度神经网络大时滞系统动态建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination