CN109816017A - 基于模糊聚类和拉格朗日插值的电网缺失数据填补方法 - Google Patents

基于模糊聚类和拉格朗日插值的电网缺失数据填补方法 Download PDF

Info

Publication number
CN109816017A
CN109816017A CN201910067651.5A CN201910067651A CN109816017A CN 109816017 A CN109816017 A CN 109816017A CN 201910067651 A CN201910067651 A CN 201910067651A CN 109816017 A CN109816017 A CN 109816017A
Authority
CN
China
Prior art keywords
data
missing data
missing
filling
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910067651.5A
Other languages
English (en)
Inventor
邹见效
王强
凡时财
徐红兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910067651.5A priority Critical patent/CN109816017A/zh
Publication of CN109816017A publication Critical patent/CN109816017A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Supply And Distribution Of Alternating Current (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于模糊聚类和拉格朗日插值的电网缺失数据填补方法,收集得到电网数据矩阵并进行归一化处理,先基于模糊聚类对缺失数据进行填补,然后采用拉格朗日插值法对缺失数据进行数据填补,将两种方法得到的填补数据进行平均,得到最终的填补结果。本发明结合两种插值方法,可以有效提高数据填补的准确性。

Description

基于模糊聚类和拉格朗日插值的电网缺失数据填补方法
技术领域
本发明属于电网缺失数据填补技术领域,更为具体地讲,涉及一种基于模糊聚类和拉格朗日插值的电网缺失数据填补方法。
背景技术
在电网数据收集中,由于种种原因,比如年代过久、统计不全、人主观因素等,都会造成电网数据的缺失,这种数据的缺失是人为不可避免的,也是完全随机的。缺失数据会直接影响到电网统计推断的结果,比如电网是否安全稳定运行、电线是否跟换、变电站座数是否应该增加等。因此在数据分析前需采用一种数据补充方法将缺失的数据补充完整,提高电力系统数据分析的准确性和曲线类数据的可用性,为后续分析提供支持。
目前在电网缺失数据中常用的填补方法有:直接删除法、均值填补、众数填补。直接删除法是最简单的,但是会造成信息的丢失;均值填补即是利用均值进行填充;众数填补即是利用样本中出现最多的数据进行填充,均值填补、众数填补会随着样本间差异变化而变化,当样本间差异较大时,误差很大;而单一的最近邻等算法又存在维度的单一性。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于模糊聚类和拉格朗日插值的电网缺失数据填补方法,提高数据填补的准确性。
为实现上述发明目的,本发明基于模糊聚类和拉格朗日插值的电网缺失数据填补方法具体包括以下步骤:
S1:收集D个地区的M个电网参数在N个时间点的数据构成(N×D)×M的电网数据矩阵其中i=(n-1)N+d,n=1,2,…,N,d=1,2,…,D,i=1,2,…,N×D,j=1,2,…,M,元素表示第n个时间点时第d个地区第j个电网参数的数据,当xij为缺失数据,将其加入缺失数据集合Xf
对电网数据矩阵进行数据标准化,消除数据的量纲,得到电网数据矩阵X=(xij);
S2:基于模糊聚类对缺失数据集合Xf中的缺失数据xi′j′进行填补,得到填补结果具体步骤包括:
S2.1:对缺失数据集合Xf中每个缺失数据xi′j′进行初始化,得到缺失数据的初始填补值
S2.2:将当前电网数据矩阵X中的(N×D)×M个元素随机分为K类,计算得到每一类的初始聚类中心其中k=1,2,…,K;
S2.3:初始化迭代次数r=1;
S2.4:对于当前电网数据矩阵X的每个元素xij,计算得到其与当前各个聚类中心的距离根据以下公式计算得到各个元素属于各个聚类的隶属度
其中,m表示预设的模糊因子;
S2.5:根据以下公式对聚类中心进行更新:
S2.6:对于缺失数据集合Xf中的每个缺失数据xi′j′,根据以下公式计算得到其新的填补值
S2.7:判断是否达到迭代结束条件,如果未达到,进入步骤S2.8,否则进入步骤S2.9;
S2.8:令r=r+1,返回步骤S2.4;
S2.9:将当前各个缺失数据xi′j′的填补结果作为填补结果
S3:对于缺失数据集合Xf中的每个缺失数据xi′j′,将其前p个时间点的数据和后q个时间点的相应电网参数数据组成数据序列,采用拉格朗日插值法对缺失数据xi′j′进行数据填补,将得到的填补结果作为填补结果
S4:对于缺失数据集合Xf中的每个缺失数据xi′j′,将步骤S2得到的填补数据与步骤S3得到的填补数据进行平均,得到最终的填补结果
本发明基于模糊聚类和拉格朗日插值的电网缺失数据填补方法,收集得到电网数据矩阵并进行归一化处理,先基于模糊聚类对缺失数据进行填补,然后采用拉格朗日插值法对缺失数据进行数据填补,将两种方法得到的填补数据进行平均,得到最终的填补结果。
本发明模糊聚类进行缺失数据填补,模糊聚类通过使用隶属度更加准确客观地进行了聚类;在采用拉格朗日插值法进行数据填补加入了时序概念,表述的是某个城市某个特征历年的变化;通过以上两种方法的结合,不再是单一的对数据进行填补,而是在考虑样本、特征之间关系的同时还加入了时间序列的概念,提高填补数据的准确度。
附图说明
图1是本发明基于模糊聚类和拉格朗日插值的电网缺失数据填补方法的一种具体实施方式流程图;
图2是本发明中基于模糊聚类进行缺失数据填补的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于模糊聚类和拉格朗日插值的电网缺失数据填补方法的一种具体实施方式流程图。如图1所示,本发明基于模糊聚类和拉格朗日插值的电网缺失数据填补方法具体包括以下步骤:
S101:收集电网数据:
收集D个地区的M个电网参数在N个时间点的数据构成(N×D)×M的电网数据矩阵其中i=(n-1)N+d,n=1,2,…,N,d=1,2,…,D,i=1,2,…,N×D,j=1,2,…,M,元素表示第n个时间点时第d个地区第j个电网参数的数据,当xij为缺失数据,将其加入缺失数据集合Xf
对电网数据矩阵进行数据标准化,消除数据的量纲,得到电网数据矩阵X=(xij)。本实施例中的数据标准化采用归一化,即电网数据矩阵X中的元素maxj表示电网数据矩阵第j个电网参数中的最大值。
S102:基于模糊聚类进行缺失数据填补:
基于模糊聚类(Fuzzy C-Means,FCM)对缺失数据集合Xf中的缺失数据xi′j′进行填补,得到填补结果图2是本发明中基于模糊聚类进行缺失数据填补的流程图。如图2所示,本发明中基于模糊聚类进行缺失数据填补的具体步骤包括:
S201:设置缺失数据初始值:
对缺失数据集合Xf中每个缺失数据xi′j′进行初始化,得到缺失数据的初始填补值即令一般来说,初始填补值可以设置为0,也可以根据实际需要来设置,例如设置为对应电网参数现有数据的均值。
S202:随机分类:
将当前电网数据矩阵X中的(N×D)×M个元素随机分为K类,计算得到每一类的初始聚类中心其中k=1,2,…,K,K的大小是根据实际需要确定的。
S203:初始化迭代次数r=1。
S204:计算隶属度:
对于当前电网数据矩阵X的每个元素xij,计算得到其与当前各个聚类中心的距离根据以下公式计算得到各个元素属于各个聚类的隶属度
其中,m表示预设的模糊因子。
所有隶属度可以构成大小为(N×D×M)×K的隶属度矩阵U,隶属度矩阵U中各个隶属度满足以下条件:
S205:更新聚类中心:
根据以下公式对聚类中心进行更新:
S206:计算缺失数据的填补值:
对于缺失数据集合Xf中的每个缺失数据xi′j′,根据以下公式计算得到其新的填补值
S207:判断是否达到迭代结束条件,如果未达到,进入步骤S208,否则数据填补结束,进入步骤S209。迭代结束条件一般有两种,一是相邻两次计算得到的聚类中心所组成的向量之间的距离小于预设阈值,二是达到最大迭代次数,可以根据实际需要进行设置。
S208:令r=r+1,返回步骤S204。
S209:得到填补结果:
将当前各个缺失数据xi′j′的填补结果作为填补结果
S103:基于拉格朗日插值法进行数据填补:
对于缺失数据集合Xf中的每个缺失数据xi′j′,将其前p个时间点的数据和后q个时间点的相应电网参数数据组成数据序列,p和q的具体大小根据需要进行设置,采用拉格朗日插值法对缺失数据xi′j′进行数据填补,将得到的填补结果作为填补结果
拉格朗日(Lagrange)插值法是一种常用的插值方法,其具体过程在此不再赘述。在本发明中,考虑到缺失数据与前后相邻时间点的数据相关性较大,所以优选选取与缺失数据最近的三个时间点的数据组成数据序列。
S104:填补数据平均:
对于缺失数据集合Xf中的每个缺失数据xi′j′,将步骤S102得到的填补数据与步骤S103得到的填补数据进行平均,得到最终的填补结果
为了更好地说明本发明的技术方案,采用一个具体实施例对本发明进行详细说明。本实施例以国网某省公司某些年的数据为对象,对其旗下各个分公司的电网数据进行缺失填补,用以展示本发明方法的技术效果。本实施例中以年为周期进行电网数据统计,共计8年,即N=8,所统计的分公司有15个,即D=15,电网参数包括10千伏变电站座数、10千伏变电容量、10千伏电缆条数、110千伏变电站座数、110千伏变电容量、110千伏电缆条数、220千伏变电站座数、220千伏变电容量、220千伏电缆条数、全社会用电量、现价GDP、负荷增长率、全社会最大负荷等30个,因此M=30个。因此所获得的电网数据矩阵的大小为120×30,对该矩阵进行归一化处理得到电网数据矩阵X。表1是本实施例中电网数据矩阵X的表格形式。
表1
为了验证本发明的技术效果,在表1中随机设置10个数据为缺失数据。表2是本实施例中缺失数据集合的明细。
表2
首先基于模糊聚类对10个缺失数据进行填补,得到填补结果然后采用拉格朗日插值法对10个缺失数据进行填补,得到填补结果最后将两种方法的填补结果进行平均,从而得到最终的填补结果。为了进行技术效果的对比,还基于KNN聚类(其中参数K=1)对10个缺失数据进行填补,将其填补结果连同填补结果填补结果一起作为对比数据。表3是本实施例中不同方法得到的填补结果对比表。
缺失数据 真实值 模糊聚类 拉格朗日 KNN 本发明
x<sub>16,1</sub> 0.2321 0.2510 0.1803 0.0335 0.21565
x<sub>20,15</sub> 0.0881 0.1091 0.0781 0.0369 0.0936
x<sub>50,6</sub> 0.1710 0.1086 0.2060 0.1842 0.1573
x<sub>88,23</sub> 0.1114 0.1105 0.1215 0.0375 0.116
x<sub>11,3</sub> 0.1066 0.1090 0.1158 0.1154 0.1124
x<sub>97,26</sub> 0.1108 0.1093 0.1117 0.0015 0.1105
x<sub>69,8</sub> 0.0431 0.1105 0.0676 0.0907 0.08905
x<sub>110,5</sub> 0.0723 0.0644 0.0736 0.0791 0.069
x<sub>6,29</sub> 0.1203 0.1093 0.1276 0.0355 0.11845
x<sub>101,19</sub> 0.1203 0.1081 0.0280 0.1175 0.06805
表3
表4是本实施例中不同方法得到的填补结果与真实值的误差统计表。
缺失数据 模糊聚类 拉格朗日 KNN 本发明
x<sub>16,1</sub> 8.14 22.32 85.57 7.09
x<sub>20,15</sub> 23.84 11.35 58.12 6.24
x<sub>50,6</sub> 36.49 20.47 7.72 8.01
x<sub>88,23</sub> 0.81 9.07 66.34 4.13
x<sub>11,3</sub> 2.25 8.63 8.26 5.44
x<sub>97,26</sub> 1.35 0.81 98.65 0.27
x<sub>69,8</sub> 156.38 56.84 110.44 106.61
x<sub>110,5</sub> 10.93 1.8 9.41 4.56
x<sub>6,29</sub> 9.14 6.07 70.49 1.54
x<sub>101,19</sub> 10.14 76.72 2.33 43.43
表4
本实施例采用填补准确度(Fill Accuracy Rate,FAC)来评价各种方法的优越性,填补准确度评价函数的计算公式如下:
其中:n表示缺失数据数量,n1为所有填补结果中正确填补结果的数量,正确填补结果指填补结果在真实值的±10%误差范围内(在表4中已加粗标识)
表5是本实施例中不同方法的填补准确度统计表。
模糊聚类 拉格朗日 KNN 本发明
填补准确度 50% 50% 40% 80%
表5
从表3、表4、表5中可以清晰的看出,本发明所得到的填补结果要优于基于模糊聚类的填补方法、拉格朗日插值、基于KNN聚类的填补方法,更加接近真实数据。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于模糊聚类和拉格朗日插值的电网缺失数据填补方法,其特征在于,包括以下步骤:
S1:收集D个地区的M个电网参数在N个时间点的数据构成(N×D)×M的电网数据矩阵其中i=(n-1)N+d,n=1,2,…,N,d=1,2,…,D,i=1,2,…,N×D,j=1,2,…,M,元素表示第n个时间点时第d个地区第j个电网参数的数据,当xij为缺失数据,将其加入缺失数据集合Xf
对电网数据矩阵进行数据标准化,消除数据的量纲,得到电网数据矩阵X=(xij);
S2:基于模糊聚类对缺失数据集合Xf中的缺失数据xi′j′进行填补,得到填补结果具体步骤包括:
S2.1:对缺失数据集合Xf中每个缺失数据xi′j′进行初始化,得到缺失数据的初始填补值
S2.2:将当前电网数据矩阵X中的(N×D)×M个元素随机分为K类,计算得到每一类的初始聚类中心其中k=1,2,…,K;
S2.3:初始化迭代次数r=1;
S2.4:对于当前电网数据矩阵X的每个元素xij,计算得到其与当前各个聚类中心的距离根据以下公式计算得到各个元素属于各个聚类的隶属度
其中,m表示预设的模糊因子;
S2.5:根据以下公式对聚类中心进行更新:
S2.6:对于缺失数据集合Xf中的每个缺失数据xi′j′,根据以下公式计算得到其新的填补值
S2.7:判断是否达到迭代结束条件,如果未达到,进入步骤S2.8,否则进入步骤S2.9;
S2.8:令r=r+1,返回步骤S2.4;
S2.9:将当前各个缺失数据xi′j′的填补结果作为填补结果
S3:对于缺失数据集合Xf中的每个缺失数据xi′j′,将其前p个时间点的数据和后q个时间点的相应电网参数数据组成数据序列,采用拉格朗日插值法对缺失数据xi′j′进行数据填补,将得到的填补结果作为填补结果
S4:对于缺失数据集合Xf中的每个缺失数据xi′j′,将步骤S102得到的填补数据与步骤S103得到的填补数据进行平均,得到最终的填补结果
CN201910067651.5A 2019-01-24 2019-01-24 基于模糊聚类和拉格朗日插值的电网缺失数据填补方法 Pending CN109816017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910067651.5A CN109816017A (zh) 2019-01-24 2019-01-24 基于模糊聚类和拉格朗日插值的电网缺失数据填补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910067651.5A CN109816017A (zh) 2019-01-24 2019-01-24 基于模糊聚类和拉格朗日插值的电网缺失数据填补方法

Publications (1)

Publication Number Publication Date
CN109816017A true CN109816017A (zh) 2019-05-28

Family

ID=66604939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910067651.5A Pending CN109816017A (zh) 2019-01-24 2019-01-24 基于模糊聚类和拉格朗日插值的电网缺失数据填补方法

Country Status (1)

Country Link
CN (1) CN109816017A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110676855A (zh) * 2019-09-30 2020-01-10 贵州电网有限责任公司凯里供电局 一种配电网无功电压控制参数智能优化调整方法
CN110837855A (zh) * 2019-10-30 2020-02-25 云南电网有限责任公司信息中心 一种对电网业务协同监控系统中异构数据集的处理方法
CN111506624A (zh) * 2020-04-16 2020-08-07 南方电网科学研究院有限责任公司 一种电力缺失数据辨识方法和相关装置
CN111507412A (zh) * 2020-04-20 2020-08-07 南京工程学院 一种基于历史数据辅助场景分析的电压缺失值填补方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8941652B1 (en) * 2012-05-23 2015-01-27 Google Inc. Incremental surface hole filling
CN104866578A (zh) * 2015-05-26 2015-08-26 大连理工大学 一种不完整数据混合填充方法
CN106127262A (zh) * 2016-06-29 2016-11-16 海南大学 一种属性缺失数据集的聚类方法
CN106407258A (zh) * 2016-08-24 2017-02-15 广东工业大学 一种缺失数据预测方法及装置
CN109034231A (zh) * 2018-07-17 2018-12-18 辽宁大学 信息反馈rbf网络估值的不完整数据模糊聚类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8941652B1 (en) * 2012-05-23 2015-01-27 Google Inc. Incremental surface hole filling
CN104866578A (zh) * 2015-05-26 2015-08-26 大连理工大学 一种不完整数据混合填充方法
CN106127262A (zh) * 2016-06-29 2016-11-16 海南大学 一种属性缺失数据集的聚类方法
CN106407258A (zh) * 2016-08-24 2017-02-15 广东工业大学 一种缺失数据预测方法及装置
CN109034231A (zh) * 2018-07-17 2018-12-18 辽宁大学 信息反馈rbf网络估值的不完整数据模糊聚类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
R.J. HATHAWAY等: "Fuzzy c-means clustering of incomplete data", 《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS, PART B (CYBERNETICS)》 *
ZHENG-XIN L.等: "Research on methods of filling missing data for multivariate time series", 《2017 IEEE 2ND INTERNATIONAL CONFERENCE ON BIG DATA ANALYSIS (ICBDA)》 *
刘娟芳: "复杂数据的统计分析与建模", 《中国优秀博硕士学位论文全文数据库(博士)基础科学辑》 *
周爱华 等: "面向多源异构电网数据的获取与转换技术研究", 《能源互联网与电力大数据研究》 *
潘文凯: "改进的模糊聚类算法在电站运行优化中的应用", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技II辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110676855A (zh) * 2019-09-30 2020-01-10 贵州电网有限责任公司凯里供电局 一种配电网无功电压控制参数智能优化调整方法
CN110676855B (zh) * 2019-09-30 2023-10-31 贵州电网有限责任公司 一种配电网无功电压控制参数智能优化调整方法
CN110837855A (zh) * 2019-10-30 2020-02-25 云南电网有限责任公司信息中心 一种对电网业务协同监控系统中异构数据集的处理方法
CN110837855B (zh) * 2019-10-30 2023-02-21 云南电网有限责任公司信息中心 一种对电网业务协同监控系统中异构数据集的处理方法
CN111506624A (zh) * 2020-04-16 2020-08-07 南方电网科学研究院有限责任公司 一种电力缺失数据辨识方法和相关装置
CN111506624B (zh) * 2020-04-16 2023-05-23 南方电网科学研究院有限责任公司 一种电力缺失数据辨识方法和相关装置
CN111507412A (zh) * 2020-04-20 2020-08-07 南京工程学院 一种基于历史数据辅助场景分析的电压缺失值填补方法
CN111507412B (zh) * 2020-04-20 2021-02-19 南京工程学院 一种基于历史数据辅助场景分析的电压缺失值填补方法

Similar Documents

Publication Publication Date Title
CN109816017A (zh) 基于模糊聚类和拉格朗日插值的电网缺失数据填补方法
US10664931B2 (en) Data analyzing system and method
CN109873501B (zh) 一种低压配电网拓扑自动识别方法
Roberts et al. Characterisation of Australian apartment electricity demand and its implications for low-carbon cities
CN109325545A (zh) 低压配电网拓扑结构校验方法、装置、设备及存储介质
CN102999791A (zh) 一种电力行业中基于客户分群的电力负荷预测方法
Motlagh et al. Analysis of household electricity consumption behaviours: Impact of domestic electricity generation
CN106066423A (zh) 一种基于损耗分配嫌疑分析的反窃电分析方法
CN112149873B (zh) 一种基于深度学习的低压台区线损合理区间预测方法
CN111144468A (zh) 电力用户信息标签化方法和装置、电子设备以及存储介质
CN109270372B (zh) 一种基于线损和用户用电量变化关系的窃电识别系统及方法
CN110109971A (zh) 一种低压台区用户用电负荷特性分析方法
CN111505446A (zh) 台区空房用户线户关系识别方法、装置和设备
CN108062720A (zh) 一种基于相似日选取及随机森林算法的负荷预测方法
CN108846555A (zh) 一种电力负荷大数据缺失值的高效精确填补法
CN107330540A (zh) 一种考虑电压质量的配电网台区缺供电量预测方法
Dent et al. The application of a data mining framework to energy usage profiling in domestic residences using UK data
CN111415035A (zh) 一种预估建筑功能户型比的方法及装置
CN111505443A (zh) 低压台区线户关系识别方法、装置和计算机设备
CN111026791B (zh) 一种基于居民细粒度用电数据的用户类型判定方法
CN113872204A (zh) 一种基于电网图拓扑计算的用电负荷性质确定方法及装置
CN104751369A (zh) 一种改进的k-均值聚类的线损分析方法
Wen et al. An energy demand-side management and net metering decision framework
CN104751253B (zh) 基于b-样条基底展开曲线聚类的配电网潮流预测方法
CN107248031A (zh) 一种针对负荷曲线峰谷差的快速电力用户分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190528