CN103353895A

CN103353895A - 一种配电网线损数据的预处理方法

Info

Publication number: CN103353895A
Application number: CN2013103081400A
Authority: CN
Inventors: 何艺; 黄富凡; 陈勇成; 刘路; 李刚; 陈俊; 张良均; 曾博; 韩帅; 秦丽娟; 刘名军; 余燕团; 陈俊德
Original assignee: SNRISE Corp; Electric Power Research Institute of Guangxi Power Grid Co Ltd
Current assignee: SNRISE Corp; Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority date: 2013-07-22
Filing date: 2013-07-22
Publication date: 2013-10-16

Abstract

一种配电网线损数据的预处理方法，包括如下步骤：首先从原始数据集中确定因变量和自变量，并基于最邻近算法确定缺失值的上下限，在上下限范围内对全部缺失数据进行随机插补；然后建立所有变量的数据分组处理模型，找出最优复杂度模型；最后根据最优复杂度模型计算缺失值，代替上一次缺失值的插补值，并进行迭代循环，直到缺失值不再变化。本发明能够对10kV及以下线损计算的供入、供电电量数据进行补数，有效地进行配电网线损数据的预处理，优化线损分析效果，为窃电或违约用电、计量差错故障等异常分析提供数据支持。

Description

一种配电网线损数据的预处理方法

技术领域

本发明涉及配电网线损管理技术领域，具体涉及一种配电网线损数据的预处理方法。

技术背景

在电网运行中，由电表计量统计的供电量和售电量之差，称为统计线损电量，相应的线损率称为统计线损率。供电企业希望通过对线损的计算与分析，能够动态准确地针对线损对象，找出用户用电异常、计量回路计量不准确等造成线损波动的原因，提出降损目标，进行相应改造，降低线损。对线损计算与分析，需要用到的一个关键指标是线损率。线损率＝（供入电量-供出电量）/供入电量。其中供入电量为进入线路时采集的电量，供出电量为该条线路下各大用户的所有用电量之和。由于某些原因，部分大用户的用电量无法正常采集，如果丢失这部分数据，将影响供出电量的计算结果，最终导致线损率数据误差很大。因此，对线损指标数据进行预处理就显得非常重要。即需通过合适算法对缺失数据进行补齐，之后再利用分线线损拓扑结构关系计算出线路的线损率。

配电网线损缺失数据的预处理，通常采用基于加权平均的方法进行数据补齐，即用最近一个月的线损数据加权平均，这种方法补值效果不太理想，具有很大的局限性。随着国家节能减排政策的大力实施以及政府部门对电网企业电力需求侧管理责任的考核，需要新的配电网线损预处理方法，优化线损分析效果，对供电企业降低线损和生产成本具有重要意义。

发明内容

本发明针对大用户用电量的缺失数据，提供一种配电网线损数据的预处理方法，能有效地进行配电网线损数据的预处理，优化线损分析效果，为窃电或违约用电、计量差错故障等异常分析提供数据支持，为供电企业进行线损分析提供有力的理论基础与依据。

本发明采用的技术方案是：一种配电网线损数据的预处理方法，包括以下步骤：首先从原始数据集中确定因变量和自变量，并基于最邻近算法确定缺失值的上下限，在上下限范围内对全部缺失数据进行随机插补；然后建立所有变量的数据分组处理模型，找出最优复杂度模型；最后根据最优复杂度模型计算缺失值，代替上一次缺失值的插补值，并进行迭代循环，直到缺失值不再变化。

所述的基于最邻近算法对缺失值上下限的确定，是以欧式距离为标准，计算出样本数据之间的距离，然后为缺失数据选择k个与其距离最小的样本，以此算法来确定缺失值的上下限。

所述建立所有变量的数据分组处理模型，找出最优复杂度模型，是基于自组织建模分组数据处理技术推导的最优原始输入变量表达式模型，模型的项数和次数随着复杂度的增加，具有外补充性质。选择准则或目标函数的某一准则通过最小点，全局最小值对应最优复杂度，在迭代的过程中，如果在一个筛选阶段不能再减小外准则的数值，则算法结束，找出最优复杂度模型。

所述的线损数据预处理方法，具体步骤如下：

（1）确定缺失数据的变量x_i为因变量，不含缺失数据的变量(x₁,x₂,K,x_i-1,x_i+1,K,x_n)为自变量。

（2）根据先验知识和已有数据信息给出缺失值的上下限，记为

令其每次迭代值不超过这个范围。

（3对于全部缺失值随机插补，插补值在之间随机选取，获得初始插补值。

（4）建立含有缺失数据的变量和其他变量之间的数据分组处理模型，找出最优复杂度模型。

（5）根据最优复杂度模型计算缺失值，代替上一次缺失值的插补值。如果某一步迭代超过上下限范围，则以此范围的边界值代替原来的值，即对于第t步迭代过程中，如果

y_{i}^{(t)} &NotElement; [\underset{&OverBar;}{y_{i}}, \overset{&OverBar;}{y_{i}}],

若

y_{i}^{(t)} < \underset{&OverBar;}{y_{i}},

则

y_{i}^{(t)} &LeftArrow; \underset{&OverBar;}{y_{i}},

若

y_{i}^{(t)} > \overset{&OverBar;}{y_{i}},

则

y_{i}^{(t)} &LeftArrow; \overset{&OverBar;}{y_{i}} .

（6）重复上述步骤（3）至步骤（5）的过程，直到迭代的缺失值不再变化为止。

本发明的突出技术效果在于：

基于所有变量建立的数据分组处理，找出最优复杂度模型。因而本发明克服了传统线损数据预处理方法的局限性，实现不完备数据到完全数据的数据挖掘目标，能有效地进行缺失线损数据的动态更新，自动实现数据的组织和管理，为供电企业进行线损分析提供有力的理论基础与依据，为窃电或违约用电、计量差错故障等异常分析提供数据支持，经验证，效果明显优于传统的加权平均方法。

附图说明

图1是本发明所述的配电网线损数据的预处理方法的工作流程图。

图2是本发明所述的配电网线损数据的预处理方法步骤4的框图。

图3是本发明所述的配电网线损数据的预处理方法的数据分组处理建模过程示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案进行详细的说明。

如图1所示，本发明所述的配电网线损数据的预处理方法，具体步骤如下：

步骤1：确定因变量和自变量

确定缺失数据的变量x_i为因变量，不含缺失数据的变量(x₁,x₂,K,x_i-1,x_i+1,K,x_n)为自变量。

步骤2：确定缺失值的上下限

根据先验知识和已有数据信息给出缺失值的上下限，记为

令其每次迭代值不超过这个范围。

步骤3：缺失数据进行随机插补

对于全部缺失值随机插补，插补值在

之间随机选取，获得初始插补值。

步骤4：寻找最优复杂度模型

建立含有缺失数据的变量和其他变量之间的数据分组处理模型，找出最优复杂度模型。

步骤5：更新缺失插补值

根据最优复杂度模型计算缺失值，代替上一次缺失值的插补值。如果某一步迭代超过上下限范围，则以此范围的边界值代替原来的值，即对于第t步迭代过程中，如果

y_{i}^{(t)} &NotElement; [\underset{&OverBar;}{y_{i}}, \overset{&OverBar;}{y_{i}}],

若

y_{i}^{(t)} < \underset{&OverBar;}{y_{i}},

则

y_{i}^{(t)} &LeftArrow; \underset{&OverBar;}{y_{i}},

若

y_{i}^{(t)} > \overset{&OverBar;}{y_{i}},

则

y_{i}^{(t)} &LeftArrow; \overset{&OverBar;}{y_{i}} .

步骤6：循环直到缺失值不再变化

重复上述步骤3至步骤5的过程，直到迭代的缺失值不再变化为止。

所述的步骤1具体说明如下：

如表1所示，x_i(i=1,2,K,n)表示单条线路上的n个大用户，每一行表示某一天的用电量数据，“?”表示缺失数据。据步骤1描述，针对单变量数据缺失模式，确定含有缺失数据的变量为因变量，而不含缺失数据的变量为自变量。

表1单变量数据缺失模式

所述的步骤2包括以下子步骤：

S2.1：搜索k个邻近的算法：kNN(A[n],k)。

1.计算出样本数据和待分类数据的距离。

2.为待分类数据选择k个与其距离最小的样本。

3.统计出k个样本中大多数样本所属的分类。

4.这个分类就是待分类数据所属的分类。

S2.2：设存在如表2的缺失数据片段，通过对数据的分析，可知目标变量y_i与辅助变量x_i之间存在相关关系，首先采用简捷的最邻近法为每个缺失值插补两次，即m=2。

当y=1205.717，与其最近距离的x=478.3231和x=517.0909，故取与之对应值作为第一个缺失值的插补，在y=1151.35处可做类似的处理。

表2有缺失的数据集

表3采用最邻近法插补结果

由表3可以看出，每一次迭代插补的缺失值上下限可能会不一致，这样就形成了动态更新缺失值的上下限范围，通过合理的建模分析寻求更接近实际的插补结果。

所述的步骤4包含以下子步骤：

在以下算法步骤中，存在两个循环，一个是在每一次填充值基础上的数据分组处理算法，寻找最优模型的循环，另一个是通过循环不断更新填充值，通过两次循环寻找最优模型的最佳填充值，以提高模型精度，具体见图2。

S4.1：将大用户用电量数据集分为训练集A(training set)和检测集B(testing set)(N_ω=N_A+N_B,ω=A∪B)。若建立预测模型，则将数据样本集分为学习集A(learning set)、检测集B和检测集C(checking set)，N_ω=N_A+N_B+N_C,ω=A∪B∪C。

S4.2：建立含有缺失数据的因变量和不含缺失数据的自变量之间的一般关系，作为“参考函数”，采用科尔莫戈罗夫-加博尔多项式。

S4.3：从具有外补充性质的选择准则中选出一个或若干个作为目标函数，或称外准则体系。

S4.4：产生第一层中间模型，见图3。图3中标记为：第一层，生成竞争模型，筛选。□表示“淘汰”，■表示“保留”；第二层，再生成竞争模型，再筛选；重复上述步骤，直到得到最优模型。

传递函数y_k=f_k(v_i,v_j)(k=1,2,K,10)为第一层中间层模型，他们由自组织过程自适应产生，且因所含变量个数、函数结构而从此不同，同时在训练集A估计y_k的参数。

S4.5：第一层中间模型筛选。根据外准则，在测试集B上对第一层中间模型进行筛选，选出的中间模型ω_k(k=1,2,5,10)作为网络层第二层的输入变量。

S4.6：形成最优复杂度模型网络结构。重复S4.4、S4.5两步，可依次产生第二层……层中间模型，最终形成可用于分析的显示(explicit)最优复杂度模型。

应用实验例

为了验证本发明所述的配电网线损数据的预处理方法的有效性和优良特点，设计下面实验对其进行验证和比较研究。对每一组原始缺失数据集，缺失率按照10%，30%，50%，逐渐递增方式。在不同水平的缺失率下建立数据分组处理模型，迭代插补缺失的数据，并比较不同缺失率下插补数据与原始数据的误差率。选取一组缺失10%的数据集，20组数据缺失2个数据，随机选取缺失数据，在数据缺失下，采用数据分组处理方法插补缺失值进行误差分析。

一组缺失10%的数据片段，20组样本缺失2个数据，随机选取缺失数据，首先根据最邻近法插补给出初始的上下限，然后我们按照如下步骤进行实验验证：

第一步：选取函数。本实验选取的函数为：

f(x)=1.5x₁+2x₂-3x₃+2.5x₄-0.7x₅+1.1x₆

第二步：产生4组(0,1)的随机数Z，然后分别计算在α不同水平(0,0.25,0.5,1)下的αZ值，其包含了客观因素的影响，例如电表数据的抄写错误、录入错误、计量误差等，以及不同的αZ值下的y值，其值表示实验值，再与其数据分组处理插补的数据值进行对比分析，每一次模拟的Z都由计算机随机产生。

第三步：寻找最优复杂度模型。根据前面所述的步骤，通过建立的数据分组处理模型，找出最优复杂度模型，并通过测量和数据采集，利用数据分组处理插补的方法计算缺失数据和相对误差。

第四步：进行缺失插补值更新。方法同子步骤S2.2，最后进第一步至第三步循环迭代，直到缺失值不再变化。

通过测量和数据采集，利用本发明所述的配电网线损数据的预处理方法计算缺失数据和相对误差，实验结果如表4所示。由表4可以看出，采用本发明的预处理方法后，在不同水平的缺失率下，对线损缺失数据进行插补后的相对误差率较低，平均误差率在0.012～1.495%，满足了配电网线损数据预处理的要求。

表4实验结果

本发明基于所有变量建立的数据分组处理，找出最优复杂度模型。因而能够克服传统线损数据预处理方法的局限性，实现不完备数据到完全数据的数据挖掘目标，有效地进行缺失线损数据的动态更新，自动实现数据的组织和管理，为窃电或违约用电、计量差错故障等异常分析提供数据支持。

Claims

1.一种配电网线损数据的预处理方法，其特征在于，包括如下步骤：首先从原始数据集中确定因变量和自变量，并基于最邻近算法确定缺失值的上下限，在上下限范围内对全部缺失数据进行随机插补；然后建立所有变量的数据分组处理模型，找出最优复杂度模型；最后根据最优复杂度模型计算缺失值，代替上一次缺失值的插补值，并进行迭代循环，直到缺失值不再变化。

2.根据权利要求1所述的配电网线损数据的预处理方法，其特征在于，所述的基于最邻近算法确定缺失值的上下限，是以欧式距离为标准，计算出样本数据之间的距离，然后为缺失数据选择k个与其距离最小的样本，以此算法来确定缺失值的上下限。

3.根据权利要求1所述的配电网线损数据的预处理方法，其特征在于，所述的建立所有变量的数据分组处理模型，找出最优复杂度模型，是基于自组织建模分组数据处理技术推导的最优原始输入变量表达式模型，模型的项数和次数随着复杂度的增加，具有外补充性质，选择准则或目标函数的某一准则通过最小点，全局最小值对应最优复杂度，在迭代的过程中，如果在一个筛选阶段不能再减小外准则的数值，则算法结束，找出最优复杂度模型。

4.根据权利要求1所述的配电网线损数据的预处理方法，其特征在于，具体步骤如下：

（1）确定缺失数据的变量x_i为因变量，不含缺失数据的变量(x₁,x₂,K,x_i-1,x_i+1,K,x_n)为自变量；

令其每次迭代值不超过这个范围；

（3）对于全部缺失值随机插补，插补值在

之间随机选取，获得初始插补值；

（4）建立含有缺失数据的变量和其他变量之间的数据分组处理模型，找出最优复杂度模型；

（5）根据最优复杂度模型计算缺失值，代替上一次缺失值的插补值，如果某一步迭代超过上下限范围，则以此范围的边界值代替原来的值，即对于第t步迭代过程中，如果

y_{i}^{(t)} &NotElement; [\underset{&OverBar;}{y_{i}}, \overset{&OverBar;}{y_{i}}],

若

y_{i}^{(t)} < \underset{&OverBar;}{y_{i}},

则

y_{i}^{(t)} &LeftArrow; \underset{&OverBar;}{y_{i}},

若

y_{i}^{(t)} > \overset{&OverBar;}{y_{i}},

则

y_{i}^{(t)} &LeftArrow; \overset{&OverBar;}{y_{i}};