CN110781449B

CN110781449B - 用于台区线损计算的用户数据缺失的估计方法

Info

Publication number: CN110781449B
Application number: CN201911068629.9A
Authority: CN
Inventors: 任有刚; 田伟; 武文鹏; 王冲; 王之昕; 仝翠芝; 王宏波; 赵洪山; 刘秉聪
Original assignee: State Grid Jibei Power Co ltd Smart Distribution Network Center; North China Electric Power University
Current assignee: State Grid Jibei Power Co ltd Smart Distribution Network Center; North China Electric Power University
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2022-11-25
Anticipated expiration: 2039-11-05
Also published as: CN110781449A

Abstract

本发明公开了一种用于台区线损计算的用户数据缺失的估计方法，选取与代表日中空缺数据相临近的一组数据，用该组数据与和空缺数据同用户同相的所有历史用电数据进行比较，找到历史用电数据所代表的历史时刻的用户用电行为与空缺数据所处时刻用户用电行为相似的历史数据值，处理记录与空缺位置对应时刻的历史数据，取全部记录下来的处理后的有价值历史数据的中位值估计空缺数据。本发明提供的用于台区线损计算的用户数据缺失的估计方法，仅需要较少的样本数据量即可实现对计算选取代表日缺失的电压或电流等用电数据的精确估计，具有较强的实用价值，并且过程简单，易于操作。

Description

用于台区线损计算的用户数据缺失的估计方法

技术领域

本发明涉及电力行业的数据清洗领域，特别是涉及一种用于台区线损计算的用户数据缺失的估计方法。

背景技术

线损是综合反映电力网规划设计、生产运行和经营管理水平的一项重要经济技术指标。传统的台区理论线损计算方法依靠台区线路结构参数，用户终端及台区出口数据采集进行，通常采用的方法如均方根电流法，其计算公式为：

ΔA＝NI²RT×10^-3

其中I_j为该线路上各个时间点的电流值，I为线路的均方根电流，N为当前线路的结构系数，单相两线制供电取2，三相三线制供电取3，三相四线制供电取3.5，R为线路电阻，T为线路实际运行时间，ΔA为线路损失的电能。而线路上各时间点电流值I_j经常出现缺失。对于其他常用方法，如电压损失率法，其同样存在类似问题，电压损失率法的线损计算公式为：

其中K为电压损失法的计算系数，U₁为线路首端电压，U₂为线路末端电压，A为代表日台区变压器出口输出电能。在实际中U₁,U₂采集得到的数据往往同样存在不同程度的缺失。可见，这些方法对原始数据即用户处的电压电流等数据是否齐全依赖性较高，当其中数据存在缺失时后续计算难以进行。故而用户原始数据易于缺失这一现状成为了限制台区理论线损计算结果精确程度的最主要因素。因此，提出台区线损计算所用原始数据的缺失估计方案的必要性不言而喻。

在现有的技术方案中，对数据缺失的情况而言存在以下几种处理方案：

方案1，删除法：采取删除部分数据的方法，使之成为完整的数据后再对其进行分析运算。根据分析的方式不同，删除法有不同的运用方式，例如：观测样本删除、无回答权重。

方案2，单一估计：即均值/中位数/众数估计，当变量为数值类型时，若其分布服从正态分布则选取均值估计的方法，若是偏态分布则选择中位数估计。若变量的类型非数值类型，则选择众数估计的方法对缺失数据进行估计。一般将缺失数据根据其属性的相关系数，将数据分为几组，然后分别计算每组数据的均值，用以估计对应的缺失数据。

方案3，多重估计的方法：(1)热卡估计法，对于一个包含缺失值的变量，在现有的所有数据中寻找与其最为相似的对象，然后用相似对象的值进行估计；(2)最近距离决定估计，当数据受时间因素的影响不显著时，可根据最近一段时间的数据对当前缺失数据进行估计；(3)回归估计法，假设y属性存在缺失，已知与其相关的x属性。

但是，删除法并无法应用于台区线损计算原始数据之上，因线损计算时选取一个代表日进行计算，原始数据量较小，且当前数据采集设备所采集数据随机缺失现象普遍，删除一部分后更难以保证精度。对于单一估计方法，线损计算所需的原始电压电流数据，并不服从典型的正态分布或偏态分布，无论采取均值还是中位数对其进行估计，都没有切实合理的理论依据。多重估计的方法较多，但在直接应用于台区线损计算所需的电压电流数据时，同样存在不同的问题，如热卡估计法，仅从数据分布角度分析，忽略了电力系统中测量数据的时序特性，在实际运用中所得效果不佳。

发明内容

本发明的目的是提供一种用于台区线损计算的用户数据缺失的估计方法，考虑了台区线损计算原始数据的具体特征，仅需要较少的样本数据量即可实现对计算选取代表日缺失的电压或电流等用电数据的精确估计，具有较强的实用价值，并且过程简单，易于操作。

为实现上述目的，本发明提供了如下方案：

一种用于台区线损计算的用户数据缺失的估计方法，该估计方法包括以下步骤：

S1，基于台区电力用户用电数据，建立用户日用电数据矩阵A，将全部历史用电数据存储至用户日用电数据矩阵A；

S2，选取有空缺数据的代表日，基于代表日用电数据以及与代表日相临近的用电数据，建立代表日数据组合矩阵C；

S3，在代表日数据组合矩阵C中选取位于代表日空缺数据前后的一组数据，为待估计数据集；

S4，对用户日用电数据矩阵A中的历史用电数据进行遍历，找到与空缺数据同用户同相的历史用电数据集，所述历史用电数据集与待估计数据集数位相同；

S5，将历史用电数据集与待估计数据集进行比较，判断历史用电数据集所代表的历史时刻的用户用电行为与待估计数据集所处时刻用户用电行为是否相似；

S6，如果相似，记录历史用电数据集中与空缺数据对应位置的历史用电数据，并将其乘以设定比例系数作为有效历史数据；

S7，重复步骤S4-S6，直至遍历全部历史用电数据，建立有效历史数据集合；

S8，计算有效历史数据集合中所有有效历史数据的中位值作为空缺数据的估计值。

可选的，所述步骤S1中，所述建立用户日用电数据矩阵A的建立方法为：同用户同日期同相的数据存储至同一行，相同采集时间的数据存储至同一列。

可选的，所述步骤S2中，基于代表日用电数据以及与代表日相临近的用电数据，建立代表日数据组合矩阵C，具体包括：

建立用户代表日数据矩阵B，将代表日用电数据存储至矩阵B中；

建立代表日前日数据矩阵B_a和代表日后日数据矩阵B_b，将与代表日前后相临近的用电数据分别存储至矩阵B_a和B_b中；

建立代表日数据组合矩阵C，C＝[B_a|B|B_b]。

可选的，所述步骤S5中，将历史用电数据集与待估计数据集进行比较，判断历史用电数据集所代表的历史时刻的用户用电行为与待估计数据集所处时刻用户用电行为是否相似，具体包括：

将历史用电数据集与待估计数据集对应位置的数据相除，并剔除分子或分母为零的情况，得到一组相除结果，取该组相除结果的方差，当方差小于设定阈值，则判断历史用电数据集所代表的历史时刻的用户用电行为与待估计数据集所处时刻用户用电行为相似，否则，不相似。

可选的，所述步骤S6中，所述设定比例系数的设定方法为：

如果所述步骤S5中，历史用电数据集与待估计数据集对应位置的数据相除，所述历史用电数据集中的数据为分子，所述待估计数据集中的数据为分母，计算出一组相除结果，则所述设定比例系数为一组相除结果的平均值的倒数；

如果所述步骤S5中，历史用电数据集与待估计数据集对应位置的数据相除，所述待估计数据集中的数据为分子，所述历史用电数据集中的数据为分母，计算出一组相除结果，则所述设定比例系数为一组相除结果的平均值。

可选的，所述步骤S6中，如果不相似，取当前历史数据组中每位数据的下一时刻数据，形成新的历史用电数据集，再与待估计数据集进行比较。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供的用于台区线损计算的用户数据缺失的估计方法，考虑到台区理论线损计算所需的原始数据即用户处电流或电压等用电数据，这些用电数据的变化直接体现着用户用电行为的变化，而用户因受其生活习惯的影响，在一定的时间周期内，其同样的用电行为会反复出现，因此可以将用户当前的用电行为看作其历史用电行为的重现，这一点体现在数据上，即表现为用户处当前时段的电流或电压等用电数据会以历史中出现过的变化规律进行变化。因此，本发明提出的缺失数据估计方法，以缺失数据附近时段电压或电流等用电数据变化规律为查找依据，通过在历史用电数据中查找相似的用电行为，选取与缺失数据用户用电行为相同的对应的历史数据来填补当前的缺失数据；该方法所需样本数据量小，对其数据完整程度的要求低，考虑用户电流电压的时序特征，估计数据精度得到了充分保障，应用方便，适应台区线损计算原始数据实际情况，处理估计速度快，计算结果精确度高，能够为台区线损计算提供更加准确、可靠的数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明用于台区线损计算的用户数据缺失的估计方法的流程图；

图2是本发明实施例电流数据对比图；

图3是本发明实施例电压数据对比图；

图4是本发明历史用电数据集与待估计数据集比较示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明用于台区线损计算的用户数据缺失的估计方法的流程图，如图1所示，本发明提供的用于台区线损计算的用户数据缺失的估计方法，包括以下步骤：

其中，所述步骤S1中，所述建立用户日用电数据矩阵A的建立方法为：同用户同日期同相的数据存储至同一行，相同采集时间的数据存储至同一列，则有矩阵A为：

需要注意的是，矩阵中行与行之间没有先后顺序，而列则是按采集时间的序列自左依次存储，若历史数据中含有空缺值可直接将对应位置元素记录为空。其中，线损计算的电流、电压数据一般为每隔15min采集一次，一天采集96次，故矩阵的列数一般为96列。

其中，所述步骤S2中，基于代表日用电数据以及与代表日相临近的用电数据，建立代表日数据组合矩阵C，具体包括：

建立用户代表日数据矩阵B，将代表日用电数据存储至矩阵B中，存储方式与矩阵A相同，矩阵B的结构为：

建立代表日前日数据矩阵B_a和代表日后日数据矩阵B_b，将与代表日前后相临近的用电数据分别存储至矩阵B_a和B_b中，这样做的目的是为了便于当空缺数据位于代表日不同时段时，均能取其先后数据与历史数据进行比对分析。防止空缺数据处于代表日较早或较晚时刻，无更早或更晚数据可供行为分析。其中，处于代表日之前的数据读取至B_a矩阵，处于代表日之后的数据读取至B_b矩阵，矩阵B_a,B_b的数据存储规则与矩阵A相同。其结构均为：

建立代表日数据组合矩阵C，矩阵C中包含自代表日开始前一段时间至代表日结束后一段时间的全部用户的所有数据。组合时将补充读取的数据和代表日数据按时间序列，从左依次进行组合。在形成组合矩阵D时，一定要满足同用户同相的数据方可存储至同一行的规则。并在组合后对矩阵C进行分块，矩阵C的分块方式和结构为：

可见矩阵C的列数为矩阵B,B_a,B_b列数之和，行数与矩阵B相同。

其中，所述步骤S3中，在代表日数据组合矩阵C中选取位于空缺数据前后的一组数据，为待估计数据集，具体为：

遍历分块矩阵C₂，查找空缺数据，在查找到空缺数据后，将其记为c_ij；

选取表征空缺数据所在时刻用户用电行为的数据，在矩阵C中选取位于空缺数据前后2l位数据，即所取2l位数据为空缺数据前l位和后l位数据，构成2l+1位数据，即c_ij-l,c_ij-l+1,…,c_ij-2,c_ij-1,c_ij+1,c_ij+2,…,c_ij+l-1,c_ij+l，为待估计数据集。

所述步骤S4中，对用户日用电数据矩阵A中的历史用电数据进行遍历，找到与空缺数据同用户同相的历史用电数据集，所述历史用电数据集与待估计数据集数位相同，具体为：

在存放全部历史数据的矩阵A中遍历与空缺数据同用户同相的历史数据，自满足与空缺数据同用户同相的历史数据的第一位起取2l+1位数据，其中第一位数据记为a_i′j′-l，最后一位数据记为a_i′j′+l，全部数据为a_i′j′-l,a_i′j′-l+1,…,a_i′j′-1,a_i′j′,a_i′j′+1,…,a_i′j′+m-1,a_i′j′+m。

其中，所述步骤S5中，如图4所示，将历史用电数据集与待估计数据集进行比较，判断历史用电数据集所代表的历史时刻的用户用电行为与待估计数据集所处时刻用户用电行为是否相似，具体为：

用数据a_i′j′+a与c_ij+a(a＝-l,-l+1,…,-1,1,…,l-1,l)对应相除，此处为前l位和后l位数据和空缺数据的前l位和后l位数据对应相除，角标为-l至1和1至l，求得比例系数k_a：

在每次求比例系数k_a前先进行判断，仅在a_i′j′+a与c_ij+a均不为空值且均不为零值或均为零值时认为该位比例系数有效，令n_count加1，其他情况均认为比例系数无效，直接对下一位比例系数进行判断。当且仅当a_i′j′+a与c_ij+a均不为空值且均不为0时，求解比例系数k_a，并令k_a∈K。其中n_count用来记录有效比例系数个数，初始值为0，此时若满足以下条件：

其中，n′_set为设定值，表示当有效比例系数个数大于n′_set时，比较用户用电行为是否相似才有意义，0.1为设定阈值，D(K)为所有比例系数k_a的方差。

如果满足上述公式条件，则说明该组数据所代表的历史时刻的用户用电行为与空缺数据所处时刻用户用电行为相似，即认为历史数据中l+1位数据，和空缺数据为对应关系，记录历史用电数据集中与空缺数据对应位置的历史用电数据，并将其乘以设定比例系数作为有效历史数据。

当不满足上述条件时，所述步骤S6中，即如果不相似，取当前历史数据组中每位数据的下一时刻数据，形成新的历史用电数据集，再与待估计数据集进行比较，其中新的历史用电数据集，即a_i′j′-l+1,a_i′j′-l+2,…,a_i′j′,a_i′j′+1,a_i′j′+2,…,a_i′j′+m,a_i′j′+m+1，再与待估计数据集进行比较，需要注意的是此时与空缺数据对应的历史数据变为a_i′j′+1。

所述步骤S6中，所述设定比例系数的设定方法为：

取集合K中元素的平均值

则所述设定比例系数为

此时若与空缺数据对应的历史数据a_i′j′不空缺，则计算有效历史数据x的值：

令x∈X，集合X用于存放所有的有效历史数据。

在步骤S7中，重复步骤步骤S4-S6，当判断完矩阵A中一行历史数据后，自满足与空缺数据同用户同相的下一行历史数据继续，直至遍历全部历史数据。

在步骤S8中，用记录下的所有有效历史数据的中位值估计空缺数据，即以集合X的中位值估计空缺值c_ij。若发现此时C₂矩阵中仍旧有数据未被估计，则应适当放宽步骤S5中D(K)的满足条件。

如果所述用电数据为电流，则在步骤S3与步骤S4之间还需要进行以下步骤：

判断当前时段用户有无用电行为。若判断结果为无用电行为，则直接将空缺电流数据即c_ij估计为零，并继续对下一位空缺数据进行处理；若判断结果为当前时段用户有用电行为，则进入步骤S4。判断方法为，当满足：

c_ij+a＝0,a＝-l,-l+1,…,-1,1,…,l-1,l

时令c_ij+a∈U，在完成对c_ij+a的判断后，对集合U中元素个数进行判断：

card(U)＞n_set

其中card(U)表示计算集合中的元素个数，n_set为设定值，表示当空缺数据前后时段数据中有n_set个以上的零值时，即可认为在空缺数据所处时刻，用户未使用电器。

如果所述用电数据为电压，则电压数据估计的具体步骤与电流相同，但是与电流不同，电压数据(正常状态下)不可能出现连续的零值，因为无论用户是否使用电器设备，智能电表测量到的电压值均不为零。

本方法选取与代表日中空缺数据相临近的一组数据，该组数据反映了缺失数据所处时间段的用户用电行为。之后用该组数据与和空缺数据同用户同相的所有历史数据进行比较，比较方法为从满足与空缺数据同用户同相条件的历史数据第一位开始，向后取与先前所取一组数据等长的一组历史数据，令两组数据对应位置相除，得到一组相除结果。通过该组结果的方差判断该历史时段用户用电行为与空缺数据所处时刻用户用电行为是否相似。若相似，则认为该条历史数据有价值，处理记录与空缺位置对应时刻的历史数据；若不相似，则从满足与空缺数据同用户同相条件的历史数据第二位开始，再次取一组数据，进行同样的判断，直至遍历全部历史数据。之后取全部记录下来的处理后的有价值历史数据的中位值估计空缺数据，实现了空缺数据的计算。

以下是根据河北省秦皇岛市公园郡台区采集得到的存在缺失的原始用户数据以及线路结构参数，表1、表2为读取得到的部分电流电压缺失数据，表3、表4为人为分别去除10个已有数据后的缺失情况，表5、表6为缺失数据估计后的结果。其中人为分别去除10个已有电流、电压数据，与估计完成后的数据对比情况如图1、图2。

通过计算可知，电流估计数据的平均精确度在此处达到了98.83％，电压估计数据的平均精确度达到了99.73％。在对个别电流数据进行估计时，可能由于其附近数据波动程度较大而影响精确度，但因在实际线损计算中多采用均方根电流值，而电压值因其基数较大，估计偏差率极小，因此并不会影响到最后线损计算的准确度。

针对河北省秦皇岛市公园郡台区采用不同的缺失数据填补方法对缺失数据进行填补后，通过均方根电流法进行计算得到的不同台区线损率结果。分别为和。其中，为采用本文提出的缺失数据估计方法对缺失数据进行估计后得到的计算结果，为采用平均值法对缺失数据进行估计后得到的计算结果。可见采用本文提出的缺失数据估计方法对缺失数据进行估计后，其计算结果更为精确。

表1电流数据缺失情况

表2电压数据缺失情况

表3人为去除电流数据情况

表4人为去除电压数据情况

表5电流数据估计结果

表6电压数据估计结果

本发明提供的用于台区线损计算的用户数据缺失的估计方法，考虑到台区理论线损计算所需的原始数据即用户处电流或电压等用电数据，这些用电数据的变化直接体现着用户用电行为的变化，而用户因受其生活习惯的影响，在一定的时间周期内，其同样的用电行为会反复出现，因此可以将用户当前的用电行为看作其历史用电行为的重现，这一点体现在数据上，即表现为用户处当前时段的电流或电压等用电数据会以历史中出现过的变化规律进行变化。因此，本发明提出的缺失数据估计方法，以缺失数据附近时段电压或电流等用电数据变化规律为查找依据，通过在历史用电数据中查找相似的用电行为，选取与缺失数据用户用电行为相同的对应的历史数据来填补当前的缺失数据，该方法所需样本数据量小，对其数据完整程度的要求低，考虑用户电流电压的时序特征，估计数据精度得到了充分保障，应用方便，适应台区线损计算原始数据实际情况，处理估计速度快，计算结果精确度高，能够为台区线损计算提供更加准确、可靠的数据。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用于台区线损计算的用户数据缺失的估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的用于台区线损计算的用户数据缺失的估计方法，其特征在于，所述步骤S1中，所述建立用户日用电数据矩阵A的建立方法为：同用户同日期同相的数据存储至同一行，相同采集时间的数据存储至同一列。

3.根据权利要求1所述的用于台区线损计算的用户数据缺失的估计方法，其特征在于，所述步骤S2中，基于代表日用电数据以及与代表日相临近的用电数据，建立代表日数据组合矩阵C，具体包括：

建立代表日数据组合矩阵C，C＝[B_a|B|B_b]。

4.根据权利要求1所述的用于台区线损计算的用户数据缺失的估计方法，其特征在于，所述步骤S5中，将历史用电数据集与待估计数据集进行比较，判断历史用电数据集所代表的历史时刻的用户用电行为与待估计数据集所处时刻用户用电行为是否相似，具体包括：

5.根据权利要求4所述的用于台区线损计算的用户数据缺失的估计方法，其特征在于，所述步骤S6中，所述设定比例系数的设定方法为：

6.根据权利要求1所述的用于台区线损计算的用户数据缺失的估计方法，其特征在于，所述步骤S6中，如果不相似，取当前历史数据组中每位数据的下一时刻数据，形成新的历史用电数据集，再与待估计数据集进行比较。