一种配变数据清洗修补方法及系统
技术领域
本发明涉及伴随配电生产管理系统、用电信息采集系统、配电自动化的大量推广应用而产生的数据分析领域,具体涉及一种配变数据清洗修补方法及系统。
背景技术
配电变压器作为电能分配的关键环节,是连接电力系统与用户的纽带,在配用电系统中居于重要地位。完整、准确、可靠、有效的配变量测数据,不仅是实现配电网络可观、可控的基本条件,也是对配电网络进行各种高级应用分析的基础。目前我国配电变压器的数据采集装置多位于用电信息采集系统内的高、低压计量箱中,也有部分计量装置来自于配电自动化系统,主要采集电流、电压和有功功率等实时数据,多数情况下每15分钟间隔上报一次,并存入数据库。由于受到电网“最后一公里”特点的制约和配电变压器自身计量分散性、多样性和复杂性的影响,配电变压器的通信可靠性难于保证,数据质量并不理想。因此对接入数据进行清洗、修补,对于建立完整、准确、可靠、有效的配变量测数据档案具有重要意义。
现有配电变压器的数据质量问题主要表现为数据异常和数据缺失。数据异常是指数据明显偏离于正常数值的变化范围且不重复出现;数据缺失是指部分数据段中存在大量的0值,空值。上述数据问题,包含其他一些客观条件的制约和随机的多变因素,给数据处理带来了极大的挑战。对接入的数据进行剔除、填补、修正等处理,对于建立正确、完整、一致、完备、有效的数据具有重要意义。
发明内容
为解决上述现有技术中的不足,本发明的目的是提供一种配变数据清洗修补方法及系统,本发明排除明显异常数据后,对数据按照缺失程度进行分类,并针对不同程度的数据缺失采取相对应的修补算法,能够有效的对错误、缺失的配变量测数据进行合理修补。
本发明的目的是采用下述技术方案实现的:
本发明提供一种配变数据修补方法,其改进之处在于:
根据目标日中待修补数据的缺失程度,对待修补数据进行分类;
根据分类情况对所述待修补数据进行修补。
进一步地:所述目标日中待修补数据为同一天中针对同一项数据所采集的不完整配变数据;所述不完整配变数据为连续缺失1~8点的配变数据。
进一步地:在根据目标日中待修补数据的缺失程度,对待修补数据进行分类之前,还包括:
剔除目标日待修补数据中的异常高数据和异常低数据;
所述异常高数据的判断条件为预设时间段内前后两次量测偏离范围高于预设最高阈值的数据;所述异常低数据为预设最低阈值。
进一步地:所述预设时间段为15min,所述预设最低阈值为0。
进一步地:所述根据目标日中待修补数据的缺失程度,对待修补数据进行分类,包括:
对于连续缺失2次及以下的待修补数据,采用均值插补法修补缺失数据;
对于连续缺失3~8次的待修补数据,通过计算历史日数据与目标日待修补数据的相关系数,并选择相关系数最大的历史日数据进行线性回归,以修补缺失数据。
进一步地,所述对于连续缺失2次及以下的数据,采用均值插补法修补缺失数据,包括:
在缺失数据前后各取m个有效数据,组成数据集合(ti,yi),i=1,2,...,2m;
在选定的函数中求拟合函数使缺失数据到拟合函数的误差平方和E2=∑(p(ti)-yi)2最小,则p(t)为数据集合(ti,yi)的最小二乘解;
通过数据集合(ti,yi)的最小二乘解p(t)求取目标日待修补数据缺失点ti所对应的修补值yi,所述yi为ti时刻对应的配变数据。
进一步地,所述对于连续缺失3~8次的待修补数据,通过计算历史日数据与目标日待修补数据的相关系数,并选择相关系数最大的历史日数据进行线性回归,以修补缺失数据,包括:
获取历史时段内所有历史日数据,并分别计算每个历史日数据与目标日待修补数据之间的相关系数;
选择与目标日待修补数据之间相关系数最大的历史日数据,通过最小二乘法进行线性回归,确定两组数据之间的特征描述公式;
从相关系数最大的历史日数据中选取与目标日待修补数据缺失点所对应的历史日数据,通过所述特征描述公式确定目标日待修补数据缺失点所对应的修补值。
进一步地,通过下式计算每个历史日数据与目标日待修补数据之间的相关系数:
式中,X为历史日;Y为目标日;R(x,y)为第X日历史日数据和第Y日目标日数据之间的相关系数;j为第X日和第Y日配变数据均不存在缺失数据的数据位置,即j∈N,j≤96,且满足n为j的总数;Xj为历史日数据中第j点配变数据;Yj为目标数据线中第j点配变数据;
进一步地,所述特征描述公式,如下式:
Yj=aXj+b (2)
其中,a、b分别为特征描述方程的斜率和截距;为第X日历史数据的平均数;为第Y日待修补数据的平均数。
进一步地,所述获取历史时段内所有历史日数据之后,还包括:
剔除所有历史日数据中的异常高数据和异常低数据;
所述异常高数据的判断条件为预设时间段内前后两次量测偏离范围高于预设最高阈值的数据;所述异常低数据为预设最低阈值。
进一步地,在求得修补值Yi之后,进一步判断配变数据是否仍存在8点以下缺失,若存在,则取第二、第三相似的数据集依次进行计算,直至将缺失数据完全补完;否则,结束数据修补。
本发明还提供一种基于相似度分析的配变数据清洗修补系统,其改进之处在于:
分类模块,用于根据目标日中待修补数据的缺失程度进行分类;
修补模块,用于根据分类情况对所述待修补数据进行修补。
进一步地,所述目标日中待修补数据为同一天中针对同一项数据所采集的不完整配变数据;所述不完整配变数据为连续缺失1~8点的配变数据。
进一步地,还包括:剔除模块,用于在根据目标日中待修补数据的缺失程度,对待修补数据进行分类之前,剔除目标日待修补数据中的异常高数据和异常低数据;
所述异常高数据的判断条件为预设时间段内前后两次量测偏离范围高于预设最高阈值的数据;所述异常低数据为预设最低阈值。
进一步地,所述预设时间段为15min,所述预设最低阈值为0。
进一步地:所述分类模块,包括:
第一修补单元,用于对于连续缺失2次及以下的待修补数据,采用均值插补法修补缺失数据;
第二修补单元,用于对于连续缺失3~8次的待修补数据,通过计算历史日数据与目标日待修补数据的相关系数,并选择相关系数最大的历史日数据进行线性回归,以修补缺失数据。
进一步地:所述第一修补单元,包括:
组成子单元,用于在缺失数据前后各取m个有效数据,组成数据集合(ti,yi),i=1,2,...,2m;
第一求解子单元,用于在选定的函数中求拟合函数使缺失数据到拟合函数的误差平方和E2=∑(p(ti)-yi)2最小,则p(t)为数据集合(ti,yi)的最小二乘解;
第二求解子单元,用于通过数据集合(ti,yi)的最小二乘解p(t)求取目标日待修补数据缺失点ti所对应的修补值yi,所述yi为ti时刻对应的配变数据。
进一步地:所述第二修补单元,包括:
获取子单元,用于获取历史时段内所有历史日数据,并分别计算每个历史日数据与目标日待修补数据之间的相关系数;
第一确定子单元,用于选择与目标日待修补数据之间相关系数最大的历史日数据,通过最小二乘法进行线性回归,确定两组数据之间的特征描述公式;
第二确定子单元,用于从相关系数最大的历史日数据中选取与目标日待修补数据缺失点所对应的历史日数据,通过所述特征描述公式确定目标日待修补数据缺失点所对应的修补值。
与最接近的现有技术相比,本发明提供的技术方案具有的优异效果是:
本发明根据目标日中待修补数据的缺失程度,对待修补数据进行分类;并根据分类情况对所述待修补数据进行修补。满足对海量配变数据的快速清洗修补的需求,根据数据缺失程度采用不同的插值方法,均值插补法简单易行,补全缺失数据后曲线平滑,偏差较小。
基于数据相关系数的插补方式能够很好地体现相似日数据的负荷特性曲线,同时也可有效地规避均值插补法所碰到的数据突变问题。因此,本发明提出的方法具有较高的精度和较强的实用性。
附图说明
图1是本发明提供的配变数据清洗修补方法的流程图;
图2是本发明提供的排除异常数据后的数据完整程度分布的示意图;
图3是本发明提供的基于均值插补法的效果图;
图4是本发明提供的误差分析的效果图;其中:(a)为第501~1500条数据效果图;(b)为第21001~21500条数据效果图;
图5是本发明提供的数据点绝对误差示意图;
图6是本发明提供的数据点绝对误差分布示意图;
图7是本发明提供的基于数据相关系数与线性回归相结合的插补法效果图;
图8是本发明提供的配变数据清洗修补方法的简易流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的组件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,本发明的这些实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。
实施例一、
本发明针对用户信息采集系统上报的配电变压器量测数据进行数据清洗修补,对接入的数据进行剔除、填补、修正等处理,对于建立正确、完整、一致、完备、有效的数据具有重要意义。本发明提供一种配变数据清洗修补方法,该方法排除明显异常数据后,对数据按照缺失程度进行分类,并针对不同程度的数据缺失采取相对应的修补算法,简易流程图如图8所示,包括:
根据目标日中待修补数据的缺失程度,对待修补数据进行分类;
具体包括下述步骤,如图1所示:
(1)提取历史日及待清洗日采集数据
通过用户信息采集系统数据上报间隔多为15分钟一次,因此每台配变每相每日均应有96次数据记录。用i表示各时间点,i的取值范围为i={1,2,…,96},当i=1则时间点为00:00分,i=2则时间点为00:15分,依此类推,i=96则时间点为23:45分。汇总当日全部测量数据就能得到该用户当日负荷曲线。
选取一定时间段内相同采集设备的多天完整负荷曲线作为历史数据,选取同一时间段内的同一采集设备的不完整负荷曲线作为待清洗数据,从用电信息采集主站系统中提取出来,用于下面的运算。
(2)数据清洗
提取当日96次数据记录后,清洗修补过程主要分为三个部分,如附图1所示:
1)排除异常数据
在配电变压器数据信息收集过程中,由于设备、环境、通信等问题造成数据明显偏离于配变正常工作范围。本发明中通过对15分钟内前后连续两次量测增幅与正常最大数值比较作为异常高数据判断依据,以0值作为异常低数据依据,对异常数据进行甄别、标记并从计算中剔除。
2)数据完整度分析
排除明显异常数据后,对数据完整度进行分析。通过对实际配变数据的大量统计分析可知,连续缺失1~8点的缺失点数在总缺失点数中占比较高。同时连续数据缺失时间越长,修补数据所需要的关键特征信息越少,经过修补可信度越低。因此本发明重点针对连续数据缺失2小时以下(即1~8点)的情况进行修补。
从统计来看,各配变数据缺失的程度并不相同。单一的数据修补算法,并不能同时满足对不同数据缺失情况的准确度与效率需求。因此本发明在修补操作前将负荷数据按照缺失程度进行分类,根据不同的缺失程度采用适合的修补算法。
根据分类情况对所述待修补数据进行修补。
(3)数据修补
1)对于配变数据曲线基本连续,且存在短时(不超过2个点)的数据缺失情况,本发明对数据自身采用线性回归的方式,求得量测数据的特征曲线。具体方法为在缺失数据前后各取m个有效数据,组成集合{(ti,yi)}(i=1,2,...,2m),其中yi为ti时刻对应的配变数据。在取定的函数类中求使误差的平方和E2=∑(p(ti)-yi)2最小,则p(t)即为该数据集合的最小二乘解。最后再通过p(t)求取丢失点ti所对应的值yi,以达到修补数据的效果。
2)对于负荷数据曲线缺失3~8个数据点的情况,采用数据相关系数与线性回归相结合的方法进行修补。
该方法以相同采集设备某一时段内各日的96点对应量测数据为基础,实现对丢失数据的修补。以电流为例,用户信息采集系统每间隔15分钟记录一次配变电流数据曲线,汇总一日(00:00-23:59)全部测量数据即可得到该用户该日电流曲线。假定参与单次数据修补中的日曲线的总数为M,将相同采集设备M日内所有日电流曲线,从用电信息采集主站系统中提取出来,并分别计算与目标数据间Pearson相关系数,用于衡量两组数据的相关性:
其中:
R(x,y):第X日和第Y日之间的负荷曲线相关系数;
j:第X日和第Y日负荷曲线均不存在缺失数据的数据位置,即j∈N,j≤96,且满足
n:j的总数;
Xj:历史曲线中第j点负荷值;
Yj:目标曲线中第j点负荷值;
对所有M个日期的数据集分别进行Pearson相关系数计算,并在此基础上,通过对目标数据相关系数排序,确定在该组数据中与目标曲线相关性最高的负荷数据,利用最小二乘法进行线性回归,从而确定两组数据之间的特征描述公式:
Yj=aXj+b 公式2
其中
然后将这组相似数据对应目标数据位置i的Xi代入特征描述公式对目标负荷数据的待补值进行估算,求得修补值Yi。
若目标日曲线经一次处理后仍存在符合本发明修补条件的缺失数据,则取第二、第三相似的数据集依次进行计算,直至将数据完全补完。
实施例二、
本实施例对某区域内39台柱上变压器某年共39282组每日每相负荷曲线进行分析。经分析,部分数据段中存在大量的0值和明显错误的值(比如整日其他时间电流均稳定在30A以下,某一时间点三相同时突然出现6000A的数据点)。经过一次数据清洗,排除明显异常数据后,配变39282相·日量测数据中,无数据缺失20333相·日,占总量51.76%,其余当日量测96点数据中,均有部分缺失,数据完整度分布情况如图2所示。
排除异常数据后,39282条数据中,无缺失数据20333条,占总量51.8%;缺失29个点(96个量测点缺少29个点)及以下的数据6487条,占总量16.5%;缺失30~67个点的数据5791条,占总量14.7%,缺失68个点及以上数据8719条(96个量测点缺少68个点及以上),占总量的17%,如表1所示。
表1.数据分布情况表
|
数据量(相·日) |
所占比例 |
完整数据 |
20333 |
51.76% |
丢失29个点及以下 |
6487 |
16.51% |
丢失30~67个点 |
5791 |
14.74% |
丢失68~95个点 |
4623 |
11.77% |
完全丢失 |
2048 |
5.21% |
数据总量 |
39282 |
|
从缺失情况来看,数据记录连续缺失1~2次的情况共出现了70786次,约占所有连续缺失次数的40%;连续缺失3~4次的情况共出现79954次,约占所有连续缺失次数的45.17%;连续缺失5~8次的情况共出现12958次,约占所有连续缺失次数的7.32%。连续缺失次数统计如表2所示:
表2连续缺失次数统计
连续缺失次数 |
出现次数 |
次数比例 |
1~2次 |
70786 |
39.99% |
3~4次 |
79954 |
45.17% |
5~8次 |
12958 |
7.32% |
9~12次 |
4259 |
2.41% |
13~24次 |
3353 |
1.89% |
25~48次 |
2239 |
1.26% |
49~95次 |
1426 |
0.81% |
整日完全缺失 |
2048 |
1.16% |
从配变量测数据质量分析中可以看出:数据缺失较为集中在连续缺失1~8点(2小时缺失)的情况,连续1~8点缺失次数占缺失总次数的92.47%,连续1~8点缺数点数占总缺失点数的47.76%。因此,针对连续缺失1~8点的情况进行数据清洗效率较高。
(1)对于负荷数据曲线基本连续,存在短时(不超过半小时,2个点)数据缺失的情况,采用均值插补法,其结果如图3所示。
为验证该算法的准确性,根据试验需要分别将现实存在的数据进行不同程度的删除处理,做成缺失状态,再采用对应方法进行补全,再将补全数据与真实存在数据进行对比,得到每个数据的绝对误差。一部分日负荷的误差输出如图4所示。由图4可知误差的分布区间比较大,尤其负荷值接近0时绝对误差十分大。(a)为第501~1500条数据效果图;(b)为第21001~21500条数据效果图。
图4很难体现这些误差的分布规律,将每个点的绝对误差放在一起并进行排序,如图5、图6所示。由以上两幅图可知,大部分误差分布在±20%以内,而超过±40%的误差几乎仅占很小一部分。因此可以认为,采用均值插补算法所计算的偏差一般不会超过20%。
(2)对于负荷数据曲线缺失介于半小时到两小时的情况(缺失2点~8点),采用数据相关系数与线性回归相结合的方法进行插补,其效果如图7所示。
本发明提供实施例利用设定阈值排除明显异常数据后,对数据按照缺失程度进行分类,并提出与缺失程度相适应的修补算法,该方法针对的是存在短时数据缺失(连续缺失8个点内)的三相配变数据的清洗修补。本发明能够有效的对错误、缺失的配变量测数据进行合理修补,为电力公司基于量测数据的配电网状态分析、需求管理等高级应用提供基础。
实施例三、
基于同样的发明构思,本发明还提供一种配变数据清洗修补系统,由于该系统解决问题的原理与一种配变数据清洗修补方法相似,因此该系统的实施可以参见方法的实施,重复之处不再赘述。
该系统包括:
分类模块,用于根据目标日中待修补数据的缺失程度进行分类;
修补模块,用于根据分类情况对所述待修补数据进行修补。
进一步地,所述目标日中待修补数据为同一天中针对同一项数据所采集的不完整配变数据;所述不完整配变数据为连续缺失1~8点的配变数据。
进一步地,还包括:剔除模块,用于在根据目标日中待修补数据的缺失程度,对待修补数据进行分类之前,剔除目标日待修补数据中的异常高数据和异常低数据;
所述异常高数据的判断条件为预设时间段内前后两次量测偏离范围高于预设最高阈值的数据;所述异常低数据为预设最低阈值。
进一步地,所述预设时间段为15min,所述预设最低阈值为0。
进一步地:所述分类模块,包括:
第一修补单元,用于对于连续缺失2次及以下的待修补数据,采用均值插补法修补缺失数据;
第二修补单元,用于对于连续缺失3~8次的待修补数据,通过计算历史日数据与目标日待修补数据的相关系数,并选择相关系数最大的历史日数据进行线性回归,以修补缺失数据。
进一步地:所述第一修补单元,包括:
组成子单元,用于在缺失数据前后各取m个有效数据,组成数据集合(ti,yi),i=1,2,...,2m;
第一求解子单元,用于在选定的函数中求拟合函数使缺失数据到拟合函数的误差平方和E2=∑(p(ti)-yi)2最小,则p(t)为数据集合(ti,yi)的最小二乘解;
第二求解子单元,用于通过数据集合(ti,yi)的最小二乘解p(t)求取目标日待修补数据缺失点ti所对应的修补值yi,所述yi为ti时刻对应的配变数据。
进一步地:所述第二修补单元,包括:
获取子单元,用于获取历史时段内所有历史日数据,并分别计算每个历史日数据与目标日待修补数据之间的相关系数;
第一确定子单元,用于选择与目标日待修补数据之间相关系数最大的历史日数据,通过最小二乘法进行线性回归,确定两组数据之间的特征描述公式;
第二确定子单元,用于从相关系数最大的历史日数据中选取与目标日待修补数据缺失点所对应的历史日数据,通过所述特征描述公式确定目标日待修补数据缺失点所对应的修补值。
本发明满足对海量配变数据的快速清洗修补的需求,根据数据缺失程度采用不同的插值方法,均值插补法简单易行,补全缺失数据后曲线平滑,偏差较小;基于数据相关系数的插补方式能够很好地体现相似日数据的负荷特性曲线,同时也可有效地规避均值插补法所碰到的数据突变问题。因此,本发明提出的方法具有较高的精度和较强的实用性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。