CN103236025B - 基于电力用户数据的数据归整处理方法 - Google Patents

基于电力用户数据的数据归整处理方法 Download PDF

Info

Publication number
CN103236025B
CN103236025B CN201310148052.9A CN201310148052A CN103236025B CN 103236025 B CN103236025 B CN 103236025B CN 201310148052 A CN201310148052 A CN 201310148052A CN 103236025 B CN103236025 B CN 103236025B
Authority
CN
China
Prior art keywords
data
threshold value
centerdot
points
discrete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310148052.9A
Other languages
English (en)
Other versions
CN103236025A (zh
Inventor
张浙波
罗祾
金家培
童旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Shanghai Municipal Electric Power Co
East China Power Test and Research Institute Co Ltd
Original Assignee
State Grid Corp of China SGCC
Shanghai Municipal Electric Power Co
East China Power Test and Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Shanghai Municipal Electric Power Co, East China Power Test and Research Institute Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201310148052.9A priority Critical patent/CN103236025B/zh
Publication of CN103236025A publication Critical patent/CN103236025A/zh
Application granted granted Critical
Publication of CN103236025B publication Critical patent/CN103236025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于电力用户数据的数据归整处理方法,包括以下步骤:1)基于时间序列三维坐标,建立数据坐标,找到XYZ三个方向的规律,将所有缺失点均表示为零数据;2)进行牛顿插值,设置阈值,不断比对修正在阈值以外的数据点;3)通过离散型变量方差、独立性检验统计量计算得到数据的特征以及数据点与点之间的特征,采用数据连续化方法,将离散型数据变成连续型数据,采用MATLAB工具将其画成负荷曲线。与现有技术相比,本发明具有将用户数据进行合理的修正,得到接近于实际数据的近似数据值,从而可以很好为今后的数据应用打下基础等优点。

Description

基于电力用户数据的数据归整处理方法
技术领域
本发明涉及一种电力用户数据的处理方法,尤其是涉及一种基于电力用户数据的数据归整处理方法。
背景技术
传统意义上的数据归整主要是对数据的统计、数据的连续化等,还是着重针对数据规律本身,缺乏对于数据点的有效处理,传统的数据归整步骤主要有以下三步:
1)数据统计法。
数据统计主要是针对电力用户数据内部特征的挖掘,包括日负荷峰谷值、总量、平均值、方差、相关性、独立性检验统计量等。主要公式如下所示:
a、离散型变量方差:
Var(X)=σ2=∑(x-μ)2p(x)
其中,E(X)为数据X的期望,p(x)为数据点x的概率;
b、独立性检验统计量:
x 2 = Σ i Σ j ( f ij - e ij ) 2 e ij
其中,fij为数据表中的第i行第j列类别的观察频数,eij为数据表中的第i行第j列类别的期望频数。
数据统计方法只能从统计结果上看出数据的大体规律,无法针对个别数据点进行错误分析,同时数据统计是按照二维坐标下进行的,只能找到一或二种数据规律,因此对于之后的数值计算会有一定的影响。
2)数值计算。
数值计算是对数据统计的一个完善,是针对数据缺点进行的一种补充,其主要采用的是插值计算方法,如拉格朗日插值、牛顿插值、线性插值、Hermit插值法等等,具体公式如下所示:
a、线性插值:
(y-y0)(x1-x0)=(y1-y0)(x-x0),但针对非线性模型误差较大;
b、拉格朗日插值:
l k ( x ) = ( x - x 0 ) · · · ( x - x k - 1 ) ( x - x k + 1 ) · · · ( x - x n ) ( x k - x 0 ) · · · ( x k - x k - 1 ) ( x k - x k + 1 ) · · · ( x k - x n ) ;
其中,xi为按时间序列排列的数据列第i个数据,x为需要插入点的横坐标,lk(x)为需要插入点的纵坐标;
c、牛顿插值:
f(x)=f(x0)+f[x0,x1](x-x0)+…+f[x0,x1,…xn](x-x0)(x-x1)…(x-xn)+Pn(x);
其中为牛顿插值余项,f[x0,x1,…xn]为牛顿插值多项式系数, f [ x 0 , x 1 , · · · x n ] = f [ x 0 , x 1 , · · · x n - 1 ] - f [ x 1 , · · · x n ] x 0 - x n .
d、Hermite插值:
要求在节点上函数值相等,而且要求在节点上若干阶导数也相等。P(xi)=f(xi),P′(xi)=f′(xi),...,P(m)(xi)=f(m)(xi);
数值计算方法中的插值法比较常见,针对电力用户非线性的特点,一般采用拉格朗日插值或牛顿插值,但是如果在二维坐标下进行插值,只能找到一个方向(规律)下的插值数据,对于缺少数据较多的数据库无法准确地进行补充。
3)数据连续化
数据连续化主要是根据离散数据的内部特性,采用积分、微分、线性等方式,将离散数据连续化,得到一条反映用户负荷特征的曲线,从而能够根据负荷曲线得到相应的结果。
综上所述,数据归整主要包括三个步骤:数据统计、数值计算、数据连续化。但是在进行这些步骤过程中,同样存在许多的问题,比如数据规律单一,对于大范围数据点缺失的情况就无法再进行数据补充和完善,即使进行了数据完善,误差也比较大,因此需要找到一种相对准确的数据归整方法来适应各种数据情况。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于电力用户数据的数据归整处理方法,能够在常规数据归整步骤的基础下,增加3中数据规律的数值计算方式,有效实现对数据点的补充和完善,对之后的应用提供准确的用户数据。
本发明的目的可以通过以下技术方案来实现:
一种基于电力用户数据的数据归整处理方法,其特征在于,包括以下步骤:
1)基于时间序列三维坐标,建立数据坐标,找到XYZ三个方向的规律,将所有缺失点均表示为零数据;
2)进行牛顿插值,设置阈值,不断比对修正在阈值以外的数据点;
3)通过离散型变量方差、独立性检验统计量计算得到数据的特征以及数据点与点之间的特征,采用数据连续化方法,将离散型数据变成连续型数据,采用MATLAB工具将其画成负荷曲线。
所述的步骤1)具体如下:
11)按照时间规律对历史数据进行分拆和排列,最终形成以周、月、年三种不同时间周期的数据排列模式,作为数据三维坐标;
12)得到XYZ三个不同方向的数据列,从而在三个方向下分别找到数据规律,找出数据表格中的缺失数据,将所有缺失数据设置为0数据,全部代入数据表格中,得到完整数据表。
所述的步骤2)具体如下:
11)设置阈值,通过牛顿插值法进行计算,如公式(1)所示,
f(x)=f(x0)+f[x0,x1](x-x0)+…+f[x0,x1,…xn](x-x0)(x-x1)…(x-xn)+Pn(x)(1)
其中为牛顿插值余项,f[x0,x1,…xn]为牛顿插值多项式系数, f [ x 0 , x 1 , · · · x n ] = f [ x 0 , x 1 , · · · x n - 1 ] - f [ x 1 , · · · x n ] x 0 - x n ; x为数据坐标轴的横坐标,f(x)为数据坐标轴的纵坐标;
12)判断计算值f(x)与真实值y之间的差值是否大于设定阈值,若为是,将真实值y修正为f(x),否则保留真实值y。
所述的步骤3)中的离散型变量方差、独立性检验统计量的计算如下:
a、离散型变量方差:
Var(X)=σ2=∑(x-μ)2p(x)
其中,E(X)为数据X的期望,p(x)为数据点x的概率;
b、独立性检验统计量:
x 2 = Σ i Σ j ( f ij - e ij ) 2 e ij , df = ( R - 1 ) ( C - 1 )
其中,fij为数据表中的第i行第j列类别的观察频数,eij为数据表中的第i行第j列类别的期望频数。
与现有技术相比,本发明具有以下优点:
通过本发明能够将用户数据进行合理的修正,得到接近于实际数据的近似数据值,从而可以很好为今后的数据应用打下基础。
附图说明
图1为周天分钟的数据三维坐标示意图;
图2为年月天的数据三维坐标示意图;
图3为月周天的数据三维坐标示意图;
图4为错点数据连续化示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
本发明同样遵照数据归整的三步走,本发明是基于时间序列三维坐标,建立数据坐标,找到XYZ三个方向的规律,将所有缺失点均表示为零数据,再进行牛顿插值,设置阈值,不断比对修正在阈值以外的数据点,前后和其它方向的数据点进行验证。
用电客户有一定的生产周期或是工作生活习惯,按照时间规律对历史数据进行分拆和排列,最终形成以周、月、年三种不同时间周期的数据排列模式,总结出多张数据表,作为数据三维坐标,如下图1-3所示。
从图中可以得到XYZ三个不同方向的数据列,从而可以在三个方向下分别找到数据规律。再观察数据表格中的缺失数据、错误数据等,将所有缺失(null)数据设置为0数据,全部代入数据表格中,得到完整数据表。
本发明中将数据统计放在数值计算之后,统计出修正之后的数据量,能够更好地得到最后应用于之后负荷预测工作的数据特征。在数值计算前根据数据特征优先设定比较阈值,以应用于之后的数值计算比较,本发明的数值计算插值方法选择牛顿插值法,其公式如下:
f(x)=f(x0)+f[x0,x1](x-x0)+…+f[x0,x1,…xn](x-x0)(x-x1)…(x-xn)+Pn(x)
其中为牛顿插值余项,f[x0,x1,…xn]为牛顿插值多项式系数, f [ x 0 , x 1 , · · · x n ] = f [ x 0 , x 1 , · · · x n - 1 ] - f [ x 1 , · · · x n ] x 0 - x n ; x为数据坐标轴的横坐标,f(x)为数据坐标轴的纵坐标。
假设数值比较阈为u,X方向有abcde五个数据(包含已修正的零数据),采用abd计算出C数据,将C数据与原数据c进行阈比较,在阈值以外的修正为计算得到的C值,在阈值以内的保留c数据,并通过bde进行数据验证;同时通过YZ两方向的数据再对c数据进行验证,最终得到符合数据规律的数据C’,完成一个数据点的数值计算循环,再进行下一步验证,使用户数据完整化、具体化、实用化。
等所有数据得到修正,再进行数据统计工作,从而整体了解数据实际特征,本特征也需要从XYZ三个规律进行,分别统计其在一个时间周期内的负荷峰谷值、总量、平均值、方差、相关性、独立性检验统计量等。计算公式如下:
a、离散型变量方差;
Var(X)=σ2=∑(x-μ)2p(x)
其中,E(X)为数据X的期望,p(x)为数据点x的概率;
b、独立性检验统计量:
x 2 = Σ i Σ j ( f ij - e ij ) 2 e ij , df = ( R - 1 ) ( C - 1 )
其中,fij为数据表中的第i行第j列类别的观察频数,eij为数据表中的第i行第j列类别的期望频数。
通过方差、相关性的计算得到数据自身的特征、数据点与点之间的特征,最终采用数据连续化方法,将离散型数据变成连续型数据,采用MATLAB工具将其画成负荷曲线,从中找到用户的日负荷规律,如M型负荷、平稳型负荷、剧烈波动型负荷、夜间放量型负荷等,针对不同类型的负荷曲线可以采用合适的负荷预测方法进行后续的计算。
通过本发明能够将用户数据进行合理的修正,得到接近于实际数据的近似数据值,从而可以很好为今后的数据应用打下基础。
当遇到第一个点为无效点的情况时,如图4所示,由于插值法需要根据前后多点的情况才能判断无效点,因此当第一点为无效点时,有可能进行误判。因此采用本发明方法进行数据归整时,一般只取所有数据中间的一段,这一段数据的第一点根据前后数据进行判断和修正,其余数据点则按照本发明的数值计算循环法进行修正。
当遇到大面积数据缺失的情况,为了保证数据归整后的误差保持在一定范围内,数据必须满足一定的连续数据量条件。根据数据三维坐标,一张表的组成为96*7=672个点,因此要组成三维坐标必须至少要保证2周的数据点,即1344点。

Claims (1)

1.一种基于电力用户数据的数据归整处理方法,其特征在于,包括以下步骤:
1)基于时间序列三维坐标,建立数据坐标,找到XYZ三个方向的规律,将所有缺失点均表示为零数据;
2)进行牛顿插值,设置阈值,不断比对修正在阈值以外的数据点;
3)通过离散型变量方差、独立性检验统计量计算得到数据的特征以及数据点与点之间的特征,采用数据连续化方法,将离散型数据变成连续型数据,采用MATLAB工具将其画成负荷曲线;
所述的步骤1)具体如下:
11)按照时间规律对历史数据进行分拆和排列,最终形成以周、月、年三种不同时间周期的数据排列模式,作为数据三维坐标;
12)得到XYZ三个不同方向的数据列,从而在三个方向下分别找到数据规律,找出数据表格中的缺失数据,将所有缺失数据设置为0数据,全部代入数据表格中,得到完整数据表;
所述的步骤2)具体如下:
11)设置阈值,通过牛顿插值法进行计算,如公式(1)所示,
f(x)=f(x0)+f[x0,x1](x-x0)+…+f[x0,x1,…xn](x-x0)(x-x1)…(x-xn)+Pn(x)(1)
其中为牛顿插值余项,f[x0,x1,…xn]为牛顿插值多项式系数, f [ x 0 , x 1 , ... x n ] = f [ x 0 , x 1 , ... x n - 1 ] - f [ x 1 , ... x n ] x 0 - x n ; x为数据坐标轴的横坐标,f(x)为数据坐标轴的纵坐标;
12)判断计算值f(x)与真实值y之间的差值是否大于设定阈值,若为是,将真实值y修正为f(x),否则保留真实值y;
所述的步骤3)中的离散型变量方差、独立性检验统计量的计算如下:
a、离散型变量方差:
Var(X)=σ2=∑(x-μ)2p(x)
其中,E(X)为数据X的期望,p(x)为数据点x的概率;
b、独立性检验统计量:
x 2 = Σ i Σ j ( f i j - e i j ) 2 e i j , d f = ( R - 1 ) ( C - 1 )
其中,fij为数据表中的第i行第j列类别的观察频数,eij为数据表中的第i行第j列类别的期望频数。
CN201310148052.9A 2013-04-25 2013-04-25 基于电力用户数据的数据归整处理方法 Active CN103236025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310148052.9A CN103236025B (zh) 2013-04-25 2013-04-25 基于电力用户数据的数据归整处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310148052.9A CN103236025B (zh) 2013-04-25 2013-04-25 基于电力用户数据的数据归整处理方法

Publications (2)

Publication Number Publication Date
CN103236025A CN103236025A (zh) 2013-08-07
CN103236025B true CN103236025B (zh) 2016-05-04

Family

ID=48884064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310148052.9A Active CN103236025B (zh) 2013-04-25 2013-04-25 基于电力用户数据的数据归整处理方法

Country Status (1)

Country Link
CN (1) CN103236025B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104134169A (zh) * 2014-08-19 2014-11-05 国家电网公司 一种基于峰谷时段用电负荷权重的计算方法
CN109858525A (zh) * 2019-01-07 2019-06-07 平安科技(深圳)有限公司 群体信息分类方法、装置、计算机设备和存储介质
CN111178618A (zh) * 2019-12-25 2020-05-19 国网天津市电力公司电力科学研究院 一种智能电网负荷预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079184A (zh) * 2007-05-18 2007-11-28 华南理工大学 基于can总线的电能质量实时监测及评估系统
CN101815156A (zh) * 2010-04-22 2010-08-25 北京世纪桑尼科技有限公司 二维检流计式扫描器中图像失真校正数据的生成方法
CN102170317A (zh) * 2010-12-26 2011-08-31 北京航空航天大学 一种分析接收点附近群路径空间随机性的方法
CN102938095A (zh) * 2012-11-23 2013-02-20 湖南科技大学 一种基于多源数据的矿山沉陷监测预警方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079184A (zh) * 2007-05-18 2007-11-28 华南理工大学 基于can总线的电能质量实时监测及评估系统
CN101815156A (zh) * 2010-04-22 2010-08-25 北京世纪桑尼科技有限公司 二维检流计式扫描器中图像失真校正数据的生成方法
CN102170317A (zh) * 2010-12-26 2011-08-31 北京航空航天大学 一种分析接收点附近群路径空间随机性的方法
CN102938095A (zh) * 2012-11-23 2013-02-20 湖南科技大学 一种基于多源数据的矿山沉陷监测预警方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
农业气象资料中连续性数据缺失插补方法研究;赵兰兰,王恺,赵兵;《电能源科学》;20100531;第28卷(第5期);5-6,172页 *

Also Published As

Publication number Publication date
CN103236025A (zh) 2013-08-07

Similar Documents

Publication Publication Date Title
Merovci Transmuted generalized Rayleigh distribution
CN105868853B (zh) 一种短期风电功率组合概率预测方法
CN111444241A (zh) 一种基于数据挖掘的台区线损异常关联用户精准定位方法
CN103236025B (zh) 基于电力用户数据的数据归整处理方法
CN104102836B (zh) 一种电力系统快速抗差状态估计方法
CN110442911B (zh) 一种基于统计机器学习的高维复杂系统不确定性分析方法
CN103106256A (zh) 一种基于Markov链的正交化插值的GM(1,1)模型预测方法
Aulbach et al. A multivariate piecing-together approach with an application to operational loss data
CN103049653B (zh) 基于em算法的g0分布参数最大似然估计方法
CN102722603A (zh) 一种机电类产品的可靠性度量方法
Drees Bootstrapping empirical processes of cluster functionals with application to extremograms
CN103106332A (zh) 一种测量不确定度的分析方法
CN117930012A (zh) 一种电池一致性评估方法、装置、计算机设备及存储介质
Soram et al. On the rate of convergence of Newton-Raphson method
CN102136110A (zh) 服装规模化定制的规格-号型对照表产生方法及服装规模化定制生产方法
Labbé et al. A simple discretization scheme for nonnegative diffusion processes, with applications to option pricing
CN103258144B (zh) 基于故障录波器数据的在线静态负荷建模方法
CN104298830A (zh) 一种基于最优化方法的回弹补偿系数获取方法
CN110717244A (zh) 基于平均偏离度算法的数据信任度分析计算机仿真方法
CN105982644B (zh) 一种心脏三维标测方法
McElroy Finite sample revision variances for ARIMA model-based signal extraction
Bock et al. The pricing of European options under the constant elasticity of variance with stochastic volatility
CN113673168B (zh) 模型参数修正方法、装置、设备及可读存储介质
CN104515967B (zh) 汽车电池传感器的电压通道自补正装置及其方法
Qiu et al. A smooth nonparametric approach to determining cut-points of a continuous scale

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant