CN103353895A - 一种配电网线损数据的预处理方法 - Google Patents

一种配电网线损数据的预处理方法 Download PDF

Info

Publication number
CN103353895A
CN103353895A CN2013103081400A CN201310308140A CN103353895A CN 103353895 A CN103353895 A CN 103353895A CN 2013103081400 A CN2013103081400 A CN 2013103081400A CN 201310308140 A CN201310308140 A CN 201310308140A CN 103353895 A CN103353895 A CN 103353895A
Authority
CN
China
Prior art keywords
data
missing
line loss
missing values
distribution network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013103081400A
Other languages
English (en)
Inventor
何艺
黄富凡
陈勇成
刘路
李刚
陈俊
张良均
曾博
韩帅
秦丽娟
刘名军
余燕团
陈俊德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SNRISE Corp
Electric Power Research Institute of Guangxi Power Grid Co Ltd
Original Assignee
SNRISE Corp
Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SNRISE Corp, Electric Power Research Institute of Guangxi Power Grid Co Ltd filed Critical SNRISE Corp
Priority to CN2013103081400A priority Critical patent/CN103353895A/zh
Publication of CN103353895A publication Critical patent/CN103353895A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种配电网线损数据的预处理方法,包括如下步骤:首先从原始数据集中确定因变量和自变量,并基于最邻近算法确定缺失值的上下限,在上下限范围内对全部缺失数据进行随机插补;然后建立所有变量的数据分组处理模型,找出最优复杂度模型;最后根据最优复杂度模型计算缺失值,代替上一次缺失值的插补值,并进行迭代循环,直到缺失值不再变化。本发明能够对10kV及以下线损计算的供入、供电电量数据进行补数,有效地进行配电网线损数据的预处理,优化线损分析效果,为窃电或违约用电、计量差错故障等异常分析提供数据支持。

Description

一种配电网线损数据的预处理方法
技术领域
本发明涉及配电网线损管理技术领域,具体涉及一种配电网线损数据的预处理方法。
技术背景
在电网运行中,由电表计量统计的供电量和售电量之差,称为统计线损电量,相应的线损率称为统计线损率。供电企业希望通过对线损的计算与分析,能够动态准确地针对线损对象,找出用户用电异常、计量回路计量不准确等造成线损波动的原因,提出降损目标,进行相应改造,降低线损。对线损计算与分析,需要用到的一个关键指标是线损率。线损率=(供入电量-供出电量)/供入电量。其中供入电量为进入线路时采集的电量,供出电量为该条线路下各大用户的所有用电量之和。由于某些原因,部分大用户的用电量无法正常采集,如果丢失这部分数据,将影响供出电量的计算结果,最终导致线损率数据误差很大。因此,对线损指标数据进行预处理就显得非常重要。即需通过合适算法对缺失数据进行补齐,之后再利用分线线损拓扑结构关系计算出线路的线损率。
配电网线损缺失数据的预处理,通常采用基于加权平均的方法进行数据补齐,即用最近一个月的线损数据加权平均,这种方法补值效果不太理想,具有很大的局限性。随着国家节能减排政策的大力实施以及政府部门对电网企业电力需求侧管理责任的考核,需要新的配电网线损预处理方法,优化线损分析效果,对供电企业降低线损和生产成本具有重要意义。
发明内容
本发明针对大用户用电量的缺失数据,提供一种配电网线损数据的预处理方法,能有效地进行配电网线损数据的预处理,优化线损分析效果,为窃电或违约用电、计量差错故障等异常分析提供数据支持,为供电企业进行线损分析提供有力的理论基础与依据。
本发明采用的技术方案是:一种配电网线损数据的预处理方法,包括以下步骤:首先从原始数据集中确定因变量和自变量,并基于最邻近算法确定缺失值的上下限,在上下限范围内对全部缺失数据进行随机插补;然后建立所有变量的数据分组处理模型,找出最优复杂度模型;最后根据最优复杂度模型计算缺失值,代替上一次缺失值的插补值,并进行迭代循环,直到缺失值不再变化。
所述的基于最邻近算法对缺失值上下限的确定,是以欧式距离为标准,计算出样本数据之间的距离,然后为缺失数据选择k个与其距离最小的样本,以此算法来确定缺失值的上下限。
所述建立所有变量的数据分组处理模型,找出最优复杂度模型,是基于自组织建模分组数据处理技术推导的最优原始输入变量表达式模型,模型的项数和次数随着复杂度的增加,具有外补充性质。选择准则或目标函数的某一准则通过最小点,全局最小值对应最优复杂度,在迭代的过程中,如果在一个筛选阶段不能再减小外准则的数值,则算法结束,找出最优复杂度模型。
所述的线损数据预处理方法,具体步骤如下:
(1)确定缺失数据的变量xi为因变量,不含缺失数据的变量(x1,x2,K,xi-1,xi+1,K,xn)为自变量。
(2)根据先验知识和已有数据信息给出缺失值的上下限,记为
Figure BDA00003548650200021
令其每次迭代值不超过这个范围。
(3对于全部缺失值随机插补,插补值在之间随机选取,获得初始插补值。
(4)建立含有缺失数据的变量和其他变量之间的数据分组处理模型,找出最优复杂度模型。
(5)根据最优复杂度模型计算缺失值,代替上一次缺失值的插补值。如果某一步迭代超过上下限范围,则以此范围的边界值代替原来的值,即对于第t步迭代过程中,如果 y i ( t ) &NotElement; [ y i &OverBar; , y i &OverBar; ] , y i ( t ) < y i &OverBar; , y i ( t ) &LeftArrow; y i &OverBar; , y i ( t ) > y i &OverBar; , y i ( t ) &LeftArrow; y i &OverBar; .
(6)重复上述步骤(3)至步骤(5)的过程,直到迭代的缺失值不再变化为止。
本发明的突出技术效果在于:
基于所有变量建立的数据分组处理,找出最优复杂度模型。因而本发明克服了传统线损数据预处理方法的局限性,实现不完备数据到完全数据的数据挖掘目标,能有效地进行缺失线损数据的动态更新,自动实现数据的组织和管理,为供电企业进行线损分析提供有力的理论基础与依据,为窃电或违约用电、计量差错故障等异常分析提供数据支持,经验证,效果明显优于传统的加权平均方法。
附图说明
图1是本发明所述的配电网线损数据的预处理方法的工作流程图。
图2是本发明所述的配电网线损数据的预处理方法步骤4的框图。
图3是本发明所述的配电网线损数据的预处理方法的数据分组处理建模过程示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案进行详细的说明。
如图1所示,本发明所述的配电网线损数据的预处理方法,具体步骤如下:
步骤1:确定因变量和自变量
确定缺失数据的变量xi为因变量,不含缺失数据的变量(x1,x2,K,xi-1,xi+1,K,xn)为自变量。
步骤2:确定缺失值的上下限
根据先验知识和已有数据信息给出缺失值的上下限,记为
Figure BDA00003548650200041
令其每次迭代值不超过这个范围。
步骤3:缺失数据进行随机插补
对于全部缺失值随机插补,插补值在
Figure BDA00003548650200042
之间随机选取,获得初始插补值。
步骤4:寻找最优复杂度模型
建立含有缺失数据的变量和其他变量之间的数据分组处理模型,找出最优复杂度模型。
步骤5:更新缺失插补值
根据最优复杂度模型计算缺失值,代替上一次缺失值的插补值。如果某一步迭代超过上下限范围,则以此范围的边界值代替原来的值,即对于第t步迭代过程中,如果 y i ( t ) &NotElement; [ y i &OverBar; , y i &OverBar; ] , y i ( t ) < y i &OverBar; , y i ( t ) &LeftArrow; y i &OverBar; , y i ( t ) > y i &OverBar; , y i ( t ) &LeftArrow; y i &OverBar; .
步骤6:循环直到缺失值不再变化
重复上述步骤3至步骤5的过程,直到迭代的缺失值不再变化为止。
所述的步骤1具体说明如下:
如表1所示,xi(i=1,2,K,n)表示单条线路上的n个大用户,每一行表示某一天的用电量数据,“?”表示缺失数据。据步骤1描述,针对单变量数据缺失模式,确定含有缺失数据的变量为因变量,而不含缺失数据的变量为自变量。
表1单变量数据缺失模式
Figure BDA00003548650200048
Figure BDA00003548650200051
所述的步骤2包括以下子步骤:
S2.1:搜索k个邻近的算法:kNN(A[n],k)。
1.计算出样本数据和待分类数据的距离。
2.为待分类数据选择k个与其距离最小的样本。
3.统计出k个样本中大多数样本所属的分类。
4.这个分类就是待分类数据所属的分类。
S2.2:设存在如表2的缺失数据片段,通过对数据的分析,可知目标变量yi与辅助变量xi之间存在相关关系,首先采用简捷的最邻近法为每个缺失值插补两次,即m=2。
当y=1205.717,与其最近距离的x=478.3231和x=517.0909,故取与之对应值作为第一个缺失值的插补,在y=1151.35处可做类似的处理。
表2有缺失的数据集
Figure BDA00003548650200052
表3采用最邻近法插补结果
Figure BDA00003548650200053
由表3可以看出,每一次迭代插补的缺失值上下限可能会不一致,这样就形成了动态更新缺失值的上下限范围,通过合理的建模分析寻求更接近实际的插补结果。
所述的步骤4包含以下子步骤:
在以下算法步骤中,存在两个循环,一个是在每一次填充值基础上的数据分组处理算法,寻找最优模型的循环,另一个是通过循环不断更新填充值,通过两次循环寻找最优模型的最佳填充值,以提高模型精度,具体见图2。
S4.1:将大用户用电量数据集分为训练集A(training set)和检测集B(testing set)(Nω=NA+NB,ω=A∪B)。若建立预测模型,则将数据样本集分为学习集A(learning set)、检测集B和检测集C(checking set),Nω=NA+NB+NC,ω=A∪B∪C。
S4.2:建立含有缺失数据的因变量和不含缺失数据的自变量之间的一般关系,作为“参考函数”,采用科尔莫戈罗夫-加博尔多项式。
S4.3:从具有外补充性质的选择准则中选出一个或若干个作为目标函数,或称外准则体系。
S4.4:产生第一层中间模型,见图3。图3中标记为:第一层,生成竞争模型,筛选。□表示“淘汰”,■表示“保留”;第二层,再生成竞争模型,再筛选;重复上述步骤,直到得到最优模型。
传递函数yk=fk(vi,vj)(k=1,2,K,10)为第一层中间层模型,他们由自组织过程自适应产生,且因所含变量个数、函数结构而从此不同,同时在训练集A估计yk的参数。
S4.5:第一层中间模型筛选。根据外准则,在测试集B上对第一层中间模型进行筛选,选出的中间模型ωk(k=1,2,5,10)作为网络层第二层的输入变量。
S4.6:形成最优复杂度模型网络结构。重复S4.4、S4.5两步,可依次产生第二层……层中间模型,最终形成可用于分析的显示(explicit)最优复杂度模型。
应用实验例
为了验证本发明所述的配电网线损数据的预处理方法的有效性和优良特点,设计下面实验对其进行验证和比较研究。对每一组原始缺失数据集,缺失率按照10%,30%,50%,逐渐递增方式。在不同水平的缺失率下建立数据分组处理模型,迭代插补缺失的数据,并比较不同缺失率下插补数据与原始数据的误差率。选取一组缺失10%的数据集,20组数据缺失2个数据,随机选取缺失数据,在数据缺失下,采用数据分组处理方法插补缺失值进行误差分析。
一组缺失10%的数据片段,20组样本缺失2个数据,随机选取缺失数据,首先根据最邻近法插补给出初始的上下限,然后我们按照如下步骤进行实验验证:
第一步:选取函数。本实验选取的函数为:
f(x)=1.5x1+2x2-3x3+2.5x4-0.7x5+1.1x6
第二步:产生4组(0,1)的随机数Z,然后分别计算在α不同水平(0,0.25,0.5,1)下的αZ值,其包含了客观因素的影响,例如电表数据的抄写错误、录入错误、计量误差等,以及不同的αZ值下的y值,其值表示实验值,再与其数据分组处理插补的数据值进行对比分析,每一次模拟的Z都由计算机随机产生。
第三步:寻找最优复杂度模型。根据前面所述的步骤,通过建立的数据分组处理模型,找出最优复杂度模型,并通过测量和数据采集,利用数据分组处理插补的方法计算缺失数据和相对误差。
第四步:进行缺失插补值更新。方法同子步骤S2.2,最后进第一步至第三步循环迭代,直到缺失值不再变化。
通过测量和数据采集,利用本发明所述的配电网线损数据的预处理方法计算缺失数据和相对误差,实验结果如表4所示。由表4可以看出,采用本发明的预处理方法后,在不同水平的缺失率下,对线损缺失数据进行插补后的相对误差率较低,平均误差率在0.012~1.495%,满足了配电网线损数据预处理的要求。
表4实验结果
本发明基于所有变量建立的数据分组处理,找出最优复杂度模型。因而能够克服传统线损数据预处理方法的局限性,实现不完备数据到完全数据的数据挖掘目标,有效地进行缺失线损数据的动态更新,自动实现数据的组织和管理,为窃电或违约用电、计量差错故障等异常分析提供数据支持。

Claims (4)

1.一种配电网线损数据的预处理方法,其特征在于,包括如下步骤:首先从原始数据集中确定因变量和自变量,并基于最邻近算法确定缺失值的上下限,在上下限范围内对全部缺失数据进行随机插补;然后建立所有变量的数据分组处理模型,找出最优复杂度模型;最后根据最优复杂度模型计算缺失值,代替上一次缺失值的插补值,并进行迭代循环,直到缺失值不再变化。
2.根据权利要求1所述的配电网线损数据的预处理方法,其特征在于,所述的基于最邻近算法确定缺失值的上下限,是以欧式距离为标准,计算出样本数据之间的距离,然后为缺失数据选择k个与其距离最小的样本,以此算法来确定缺失值的上下限。
3.根据权利要求1所述的配电网线损数据的预处理方法,其特征在于,所述的建立所有变量的数据分组处理模型,找出最优复杂度模型,是基于自组织建模分组数据处理技术推导的最优原始输入变量表达式模型,模型的项数和次数随着复杂度的增加,具有外补充性质,选择准则或目标函数的某一准则通过最小点,全局最小值对应最优复杂度,在迭代的过程中,如果在一个筛选阶段不能再减小外准则的数值,则算法结束,找出最优复杂度模型。
4.根据权利要求1所述的配电网线损数据的预处理方法,其特征在于,具体步骤如下:
(1)确定缺失数据的变量xi为因变量,不含缺失数据的变量(x1,x2,K,xi-1,xi+1,K,xn)为自变量;
(2)根据先验知识和已有数据信息给出缺失值的上下限,记为
Figure FDA00003548650100011
令其每次迭代值不超过这个范围;
(3)对于全部缺失值随机插补,插补值在
Figure FDA00003548650100021
之间随机选取,获得初始插补值;
(4)建立含有缺失数据的变量和其他变量之间的数据分组处理模型,找出最优复杂度模型;
(5)根据最优复杂度模型计算缺失值,代替上一次缺失值的插补值,如果某一步迭代超过上下限范围,则以此范围的边界值代替原来的值,即对于第t步迭代过程中,如果 y i ( t ) &NotElement; [ y i &OverBar; , y i &OverBar; ] , y i ( t ) < y i &OverBar; , y i ( t ) &LeftArrow; y i &OverBar; , y i ( t ) > y i &OverBar; , y i ( t ) &LeftArrow; y i &OverBar; ;
(6)重复上述步骤(3)至步骤(5)的过程,直到迭代的缺失值不再变化为止。
CN2013103081400A 2013-07-22 2013-07-22 一种配电网线损数据的预处理方法 Pending CN103353895A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013103081400A CN103353895A (zh) 2013-07-22 2013-07-22 一种配电网线损数据的预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013103081400A CN103353895A (zh) 2013-07-22 2013-07-22 一种配电网线损数据的预处理方法

Publications (1)

Publication Number Publication Date
CN103353895A true CN103353895A (zh) 2013-10-16

Family

ID=49310267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013103081400A Pending CN103353895A (zh) 2013-07-22 2013-07-22 一种配电网线损数据的预处理方法

Country Status (1)

Country Link
CN (1) CN103353895A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318101A (zh) * 2014-10-23 2015-01-28 轻工业环境保护研究所 一种厌氧数学建模过程缺失数据的预处理方法
CN108519989A (zh) * 2018-02-27 2018-09-11 国网冀北电力有限公司电力科学研究院 一种日电量缺失数据的还原追溯方法及装置
CN108919044A (zh) * 2018-03-30 2018-11-30 国电南瑞科技股份有限公司 一种基于互校验机制的单元制配电网故障主动识别方法
CN109614392A (zh) * 2018-10-25 2019-04-12 珠海派诺科技股份有限公司 中断历史数据自动修复方法、装置、电子设备及介质
CN111223006A (zh) * 2019-12-25 2020-06-02 国网冀北电力有限公司信息通信分公司 一种异常用电检测方法及装置
CN112308437A (zh) * 2020-11-04 2021-02-02 国网北京市电力公司 基于大数据分析的线损治理方法、系统、装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060184527A1 (en) * 2005-02-16 2006-08-17 Ibm Corporation System and method for load shedding in data mining and knowledge discovery from stream data
CN102231144A (zh) * 2011-06-03 2011-11-02 中国电力科学研究院 一种基于Boosting算法的配电网理论线损预测方法
CN103106350A (zh) * 2013-03-08 2013-05-15 上海市电力公司 基于人工神经网络的线损分析数据还原方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060184527A1 (en) * 2005-02-16 2006-08-17 Ibm Corporation System and method for load shedding in data mining and knowledge discovery from stream data
CN102231144A (zh) * 2011-06-03 2011-11-02 中国电力科学研究院 一种基于Boosting算法的配电网理论线损预测方法
CN103106350A (zh) * 2013-03-08 2013-05-15 上海市电力公司 基于人工神经网络的线损分析数据还原方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何艺 陈俊: ""基于GMDH 算法的配电网线损数据预处理研究"", 《电力系统保护与控制》, vol. 43, no. 9, 1 May 2015 (2015-05-01), pages 42 - 46 *
林佳 等: ""中长期负荷预测的GMDH多结构自动搜索模型"", 《电力系统机器自动化学报》, vol. 22, no. 5, 31 October 2010 (2010-10-31), pages 41 - 45 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318101A (zh) * 2014-10-23 2015-01-28 轻工业环境保护研究所 一种厌氧数学建模过程缺失数据的预处理方法
CN108519989A (zh) * 2018-02-27 2018-09-11 国网冀北电力有限公司电力科学研究院 一种日电量缺失数据的还原追溯方法及装置
CN108919044A (zh) * 2018-03-30 2018-11-30 国电南瑞科技股份有限公司 一种基于互校验机制的单元制配电网故障主动识别方法
CN108919044B (zh) * 2018-03-30 2020-09-29 国电南瑞科技股份有限公司 一种基于互校验机制的单元制配电网故障主动识别方法
CN109614392A (zh) * 2018-10-25 2019-04-12 珠海派诺科技股份有限公司 中断历史数据自动修复方法、装置、电子设备及介质
CN109614392B (zh) * 2018-10-25 2023-08-08 珠海派诺科技股份有限公司 中断历史数据自动修复方法、装置、电子设备及介质
CN111223006A (zh) * 2019-12-25 2020-06-02 国网冀北电力有限公司信息通信分公司 一种异常用电检测方法及装置
CN112308437A (zh) * 2020-11-04 2021-02-02 国网北京市电力公司 基于大数据分析的线损治理方法、系统、装置和存储介质

Similar Documents

Publication Publication Date Title
CN107169628B (zh) 一种基于大数据互信息属性约简的配电网可靠性评估方法
CN104200087B (zh) 用于机器学习的参数寻优及特征调优的方法及系统
CN106845717B (zh) 一种基于多模型融合策略的能源效率评价方法
CN103353895A (zh) 一种配电网线损数据的预处理方法
CN104572449A (zh) 一种基于用例库的自动化测试方法
CN104798043B (zh) 一种数据处理方法和计算机系统
CN103514259B (zh) 一种基于数值关联性模型的异常数据探测及修正方法
CN105701596A (zh) 一种基于大数据技术的配网抢修精益化方法以及管理系统
CN104835103A (zh) 基于神经网络和模糊综合评价的移动网络健康评价方法
CN104573106A (zh) 一种基于案例推理技术的城市建设智能审批方法
CN106022614A (zh) 一种基于最近邻聚类的神经网络数据挖掘方法
CN109214449A (zh) 一种电网投资需求预测方法
CN106599230A (zh) 一种分布式数据挖掘模型评估的方法与系统
CN104865827B (zh) 一种基于多工况模型的抽油机采油优化方法
CN104281525B (zh) 一种缺陷数据分析方法及利用其缩减软件测试项目的方法
CN103559303A (zh) 一种对数据挖掘算法的评估与选择方法
CN105893669A (zh) 一种基于数据挖掘的全局仿真性能预测方法
CN104574141A (zh) 一种业务影响度分析方法
CN103885867B (zh) 一种模拟电路性能的在线评价方法
CN103853939A (zh) 一种基于社会经济因素影响的电力系统月度负荷的组合预测方法
CN113554213A (zh) 一种天然气需求预测方法、系统、存储介质及设备
CN106296434A (zh) 一种基于pso‑lssvm算法的粮食产量预测方法
CN110837952A (zh) 一种基于博弈论的电网新技术设备选择方法及系统
CN113361774B (zh) 一种生态空间集约利用优化方法及系统
CN109615115A (zh) 一种面向任务可靠性的集成生产任务调度方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131016